Alexa儿童故事生成：多模态AI技术解析本文深入解析了某智能助手新推出的交互式故事创作体验背后的AI技术。文章详细介绍

揭秘AI故事生成：多模态技术如何协同创作

九月，某机构高级副总裁Dave Limp发布了某设备新产品与服务线。其中一项新体验尤为引人注目：它能接收用户提示，并利用AI生成配有插图和背景音乐的完整短篇儿童故事。该体验计划于今年晚些时候全面上线，允许儿童自主选择故事主题（如“海底世界”或“魔法森林”）、主角（如海盗或美人鱼）、作为插图视觉标识的颜色以及描述性词语（如“滑稽的”或“神秘的”）。

基于这些提示，一个AI引擎会生成一个包含五个场景的原创故事。对于每个场景，它还会创作一幅插图（通常为动态图）和背景音乐，并挑选合适的音效。由于该体验高度依赖AI模型，因此同一组提示可以反复生成不同的故事。

混合方法

为确保视觉内容既适合儿童又具有一致的视觉语言，该故事创作体验使用了一个包含人工设计或精选的、AI生成的背景和前景物体的素材库。AI模型负责决定使用哪些物体以及如何在屏幕上排列它们。

新的某助手故事创作体验利用AI，在艺术家绘制或AI生成的背景上排列视觉元素，为另一个AI模块生成的故事配图。(本文所示图片仅供示意。)

类似地，背景音乐模块通过自动生成旋律，增强了作曲家创作的和声与节奏模式。这些旋律被存储在库中以便高效运行部署。随后，一个AI模型将这些背景音乐片段组合起来，以跟随主角的故事线，并匹配故事场景的情绪和主题。对应特定角色、物体和动作的音效也以类似方式被选中。

然而，故事创作体验的核心是故事生成器，它接收用户提示并输出故事文本。而故事文本本身，又是图像和音乐生成器的输入。

故事生成器

故事生成器由两个模型组成，均基于预训练的语言模型构建。第一个模型被称为“规划器”，它接收用户选择的提示，并利用它们生成一组更长的关键词，分配到不同的场景中，构成“故事规划”。第二个模型是“文本生成器”，它接收故事规划并输出故事文本。

角色选择是故事生成器用于创作文本的提示之一。

为训练故事生成器，研究人员使用了人类撰写的故事，包括一批由某机构作家内部创作的素材。这些内部故事根据用户最终可选的主题（如“海底世界”和“魔法森林”）进行了标注。

训练过程的第一步是从每个故事的每个句子中自动提取关键词语，生成关键词列表，用于训练文本生成器。然后，这些列表被随机下采样至每句仅剩几个词，作为规划器的训练数据。

一个基于Transformer模型的连贯性排序器会对文本生成器的输出进行筛选，只保留在情节连贯性（如角色和事件一致性）方面表现出最高质量的故事。该模型也用于自动评估生成故事的整体质量。

场景生成

由于场景生成模块的训练数据稀缺，研究人员采用了流水线式的模型序列来创作插图。流水线架构通常在数据较少时表现更佳。

故事文本在送入场景生成模型前，会先经过两个自然语言处理模块，分别执行指代消解和依存句法分析。指代消解模块确定代词及其他指示词的所指对象，并据此重写文本。例如，若第一幕提到的美人鱼在第二幕被称为“她”，该模块会将“她”重写为“美人鱼”，使场景生成器更易解读文本。

依存句法分析器生成一个图表，描述文本中提及的物体间的关系。例如，若文本为“章鱼在船下游过”，图表中会添加代表物体“章鱼”和“船”的节点，并用一条标记为“在...下方”的有向边连接它们。这同样是为了让场景生成器更易解读文本。

基于生成的文本，场景生成器会选择背景，并以适当的比例和方向将合适的角色放置其上。

场景生成流程的第一步是基于自然语言处理模块的输出和用户选择的主题，选择合适的背景图像。背景图像库包含艺术家绘制的和AI生成的两种图像。

接下来，自然语言处理模块的输出被传递给一个模型，该模型决定场景中应包含来自设计物体库的哪些元素。结合这些信息以及视觉上下文，另一个模型会为物体选择比例和方向，并将它们放置在所选背景图像的特定坐标点上。

库中的许多图像是动态的：例如，放置在海底背景上的鱼会摆动尾巴。但这些动画是图像设计的一部分。鱼的方向和位置可以改变，而动画则由算法执行。

音乐

为确保故事背景音乐的多样性和高质量，研究人员创建了一个包含大量器乐声部的大型库。在运行时，系统可以自动组合这些声部，为每个主角创建主题和乐器标识。

该库包含艺术家创作的高质量和弦进行、和声与节奏模式。一个AI旋律生成器可利用这些素材创作出质量相当且与现有声部乐器匹配的旋律。这些AI创作的旋律是离线生成的，并与其他音乐资产一同存储在库中。

在库中，音乐资产按和弦进行、节奏、乐器类型等属性进行组织。一个AI音乐编排系统确保所有片段能和谐地组合在一起。

与插图模块类似，音乐生成模型以两种方式处理文本输入。文本转语音模型计算朗读文本所需的时间；副语言分析模型则从多个维度（如从平静到激动，从悲伤到快乐）对文本进行评分。这两个模型的输出都作为音乐编排系统的输入，有助于确定背景音乐的时长和特性。

安全护栏

除了场景生成的组合方法，研究人员还采用了其他几种技术来确保各个AI模型的输出符合儿童年龄特点。

首先，通过人工和自动筛选并排除冒犯性内容，对用于训练模型的数据进行了严格筛选。其次，将故事创作的输入提示限制在预先筛选的选项内。第三，对模型的输出进行过滤，自动识别并移除不当内容。

此外，使用该故事创作体验需要家长同意，家长可通过某助手应用程序完成授权。

综上所述，这些措施确保了新的某助手故事创作体验既安全又有趣。