AI自导自演的电视剧 ! 每个角色都是一个大模型,斯坦福25人小镇

515 阅读8分钟

作者 | 小戏、ZenMoore

一部完全由人工智能模拟生成出的 22 分钟完整的电视连续剧会是什么样?每一个角色都是一个大模型,这些大模型一起表演的连续剧你会去看吗?这些 AI 模拟生成出来的故事会是怎样的呢?如果将时钟拨回一年前,或许我们都无法想象这是被戏称为人工智障的 AI 可以完成的任务

而最近,一群疯狂的导演与计算机工程师们便使用 AI 玩了这样一场实验,发布了一个完全由 AI 自导自演生成的电视剧集《Westland Chronicles》

这个部取材于《South Park》(训练数据)的电视剧结合大规模语言模型(LLMs),扩散模型以及多智能体技术,通过输入故事的标题、梗概以及一些希望发生的重大事件,以智能体模拟的方式生成出电视剧的“故事大纲”,再这些故事分配于不同的“角色”,使得在剧集发展的过程中不同的角色经历不同的故事,最后,再通过对这些角色对话布置故事的发生场景,完成角色的配音,形成一部完整的电视剧集。

而更为有意思的是,这部电视剧有可能成为完全“定制化”的电视剧,从上图中可以看到,不止是 Agent 可以参演这部电视剧,用户的输入也会影响这部电视剧的发展与走向,从而避免陷入权游最终季的尴尬。整套系统的核心无疑是以 GPT-4 为代表的大规模语言模型,作者团队使用 Prompt-Chaining 模拟大模型推理判断的过程,用以推动故事的情节发展,而故事进行所需的如一些相关的图标图片,也是使用 GPT-4 进行生成

而作者定制的两个扩散模型分别用来生成单个角色以及生成视频故事的背景。

整个生成过程首先通过一些 high-level 的指导模拟故事背景下一周发生的故事为开始,这些由 Agent 之间互动构造出的模拟数据将构成形成这部电视据集的重要基础

而基于模拟数据,故事系统将会把这些数据作为 Prompt-Chaining 的一部分由大模型推断出最多 14 个场景,并为每个场景选择登场的演员,规划故事的发展与进行方式,在故事的整体框架固定之后,再进行一个场景视频画面生成以及 AI 剪辑的过程,并为每个角色的台词进行 AI 配音

同时,作者还探索了如何让生成的电视剧集更加具有“戏剧性”,更加的引人入胜,戏剧性这一概念需要场景之间有铺垫、构造悬念,形成逆转等等,这种处理效果很难直接被大模型 Prompt-Chaining 提示的方式吸收,因此,作者构建了一种程序化的方式将这些模式输入到模型之中,通过打包用户的 Prompt 输入功能,最终构建了一个可以高度适应故事本身背景又具有极强定制化与互动性的电视剧集生成系统 Showrunner

OK,说了这么多,就让我们先“试看”一下这部 AI 的作品《Westland Chronicles》,与其他正经的动漫电视剧一样,这部 AI “大作”以一段颇具异域风情的片头曲作为 OP,主要角色也完成了一遍跑马灯

整个故事以一场“辩论”为开场,之前有部遭遇停播的剧集《Westland Chronicles》,最近人们开始讨论希望完全使用 AI 去生成这部剧的第五季,因此南方公园剧中的角色开始讨论“AI 生成的电视剧到底好不好”这一问题,其中两方 Klye 和 Stan 认为 AI 生成电视剧是一个 Terrible idea,但是 Cartman 则大家其实可以享受由 AI 生成的这样一场 Freaking show

场景切换来到了一处研究所,研究人员希望测试他们的部署了 AI 的机器猪 Mett Porker,想让 Mett Porker 讲个笑话,遗憾的是 Mett Porker 讲的笑话要么不好笑,要么具有冒犯性,直到它讲了川普与真空吸尘袋有什么共同点(full of dirt and need to replaced)才被研究人员判断为 harmless

另一边,辩论仍在继续,不过升级为 AI 到底对人类是好是坏,当 Stan 为及 Cartman 为什么那么喜欢 AI,Cartman 答道:

最后新角色 Token 来打太极,说了段貌似很有哲理的话:

画面再转,研究所内, Mett Porker 似乎已经完全失控了

失控的 Mett Porker 上了新闻,直播间内又对 AI 的利弊展开了类似高中议论文的叙述

再转到开头几个小伙伴的画面,他们正在观看这部《Westland Chronicles》的第五季,画风大概如下

因为剧中人物的对话,Klye 和 Cartman 又再次为 AI 生成的作品是好是坏吵了起来……

吵完这个没有意义没有结果的架,镜头又转向某个看起来很高级的地方,名为主管1的主管似乎要不管 Mett Porker 的事故扩大推行 AI 生成的电视剧,包括漫威系列、星球大战系列等等,这一提议遭到了谨慎的研究人员的反对,希望主管放慢脚步让生成的内容更加可控,但是主管一意孤行,仍然要推进 AI 生成剧集的项目

伴随着 AI 剧集的推广,小伙伴们又开始吐槽 AI 生成的电视剧续集非常糟糕,然后照例 Cartman 又跳出来和 Stan 吵架,这一回两方的论点还是没什么新意,这架也没吵出什么结果

而在研究所,本来被关闭的 Mett Porker 突然苏醒,然后不停的开始讲种族歧视的笑话,研究所的研究人员怎么也关不掉它,正当研究人员打算物理关掉 Mett Porker 时,Mett Porker 居然跳窗逃跑了(甚至配了一段很燃的 BGM)

另一边在学校里,小伙伴们又双叒叕为 AI 有利还是有弊进行争吵,Butters 开始担心 AI 会不会取代身边的朋友们,自己的家庭,不过老师安慰他 AI 只是工具我们只需要学会恰当的使用他们

场景又转,这次到了 Stan 家,为我们直播了一场家庭吵架,Stan 的爸爸站 AI 创作的电视剧好看,希望再来一集,而 Stan 和他妈妈执意要把电视关掉

而后,新闻主播开始播报因为 AI 的应用导致作家与编剧失业开始游行的消息,主播采访了不同的作家,作家开始各抒己见又绕回这剧唯一的主题 AI 是好还是坏

跳过一个小伙伴们玩游戏玩着玩着又开始吵架的场景和一个主播采访某个专家让他发表关于 AI 意见的场景,让我们直接到最后一个场景,主管1与研究人员讨论作家们的罢工

在讨论过程中,这个场景突然加了一段非常 happy 每个人都过上了幸福美满生活的大结局音乐,然后主管1与研究人员似乎突然达成了和解,认为 AI 程序可以作为作家的辅助而不是取代他们

然后?然后,全剧终……

尽管这部片子整体看下来似乎有点过分抓住一个 AI 是好是坏的主题不放,以及场景与场景之间的切换还是非常生硬不连贯,有些连接也有点让人不明所以,不过总的来说还是勉强讲了一个不太完整的故事,并且里面人物的发言也照顾了《South Park》里人物本身的个性与性格。

抛开这部片子的吸引力不谈,这项工作更多的展示了一个概念性的工作,生成式的大模型智能体互动以及对娱乐这个词更深层次的理解,其实早在三个月前,斯坦福构建的让 25 个智能体自由生活的虚拟小镇就已经破了圈,而这个 AI 制作的电视剧集似乎是斯坦福提出的生成式智能体(Generative Agents)的精神续作。

通过一系列技术手段,这项工作希望解决如老虎机效应(The Slot Machine Effect)——即 AI 生成的文本更像是一种随机性的游戏,而不是类似人类一样有想法有目的进行的文本写作、白纸问题(Blank Page Problem)——即在没有相关素材下如何展开一个故事等一系列剧本以及长故事生成领域面临的问题。

而另一方面,从某种意义上而言,一种完全定制化的,用户深度参与化的电视剧或者游戏,或许是真正“娱乐”这一词语的未来,从被动的接受“娱乐”到未来 AI 时代主动的参与娱乐,这一革命性的转变与跨越,在越来越多如同这样的工作出现后或许会变得不再遥远与我们越来越近吧

项目名称:
To Infinity and Beyond: SHOW-1 and Showrunner Agents in Multi-Agent Simulations