Papercup为自动为视频配音的AI融资2000万美元

348 阅读4分钟

配音是一个有利可图的市场,经核实的市场研究公司预测,到2027年,仅电影配音服务每年就能产生36亿美元。但这也是一个费力和昂贵的过程。平均而言,5分钟的旁白可能需要一个小时的录音室时间;一个计算器显示,即使是一个简单的视频,价格也是每分钟75美元。

人工智能在这一领域的前景,特别是自然语言处理,正在通过创建多语言的人类声音的配音来加速这一任务。一家追求这一目标的英国初创公司Papercup声称其技术正被媒体巨头Sky News、Discovery和Business Insider采用,并被用来翻译Bob Ross的标志性节目《绘画的乐趣》的30季。

首席执行官Jesse Shemen估计,在过去12个月中,有超过3亿人观看了Papercup翻译的视频。

"对本地化和翻译的需求与满足需求的能力之间存在严重的不匹配,"Shemen说。"像[Netflix的]'鱿鱼游戏'这样的节目验证了这样一个论点:如果内容具有娱乐性和趣味性,人们会在任何地方、用任何语言观看这些内容。这就是为什么该行业的发展前景如此之好。"

Papercup今天宣布,它在A轮融资中筹集了2000万美元,由Octopus Ventures领导,Local Globe、Sands Capital、Sky和Guardian Media Ventures、Entrepreneur First和BDMI参与。Shemen通过电子邮件告诉TechCrunch,这使得这家总部位于伦敦的公司迄今为止的融资总额达到约3050万美元,其中大部分将用于围绕具有表现力的人工智能生成的声音的研究,以及扩大Papercup对外语的支持。

Papercup由Shemen和Jiameng Gao于2017年创立,提供了一个由人工智能驱动的配音解决方案,可以识别目标电影或节目中的人类声音,并生成新语言的配音。视频内容制作者上传他们的视频,指定一种语言,等待Papercup的母语团队对音频进行质量检查,然后收到带有合成配音的翻译。

Shemen声称,Papercup的平台能够以人工方法无法比拟的规模和速度生成配音。除了为客户创建的定制翻译外,Papercup还提供具有 "现实 "音调和情感的声音目录。据Shemen说,除了电影和电视外,其中许多已被用于内部沟通、企业公告和教育材料。

"我们的'人在回路'方法意味着人类译员提供质量控制并保证准确性,但需要的亲力亲为比他们提供整个翻译要少得多,这意味着他们可以更快地工作并跨越更多的翻译,"谢门说。"人们在大流行期间观看了更多的视频内容,这大大增加了对我们服务的需求。"

人工智能生成的 "合成媒体 "的市场正在增长。包括Synthesia、Respeecher、Resemble AI和Deepdub在内的专注于视频和语音的公司已经为节目和电影推出了AI配音工具。在初创公司之外,Nvidia一直在开发改变视频的技术,该技术以演员的面部表情为基础,与新的语言相匹配。

但可能会有弊端。正如*《华盛顿邮报》的*Steven Zeitchik所指出的,不注意细节的人工智能配音内容可能会失去其 "本地风味"。 一种语言的表情在另一种语言中可能意味着同样的事情。此外,人工智能配音带来了伦理问题,比如是否要重现一个已经去世的人的声音。

同样模糊不清的还有从工作演员的表演中产生的声音的影响。华尔街日报》报道说,不止一家公司试图在私人演示中复制摩根-弗里曼的声音,而且电影公司越来越多地在合同中加入条款,寻求在 "必要时 "使用合成声音来代替表演者--例如在后期制作中调整对话的台词。

Shemen将Papercup定位为一个大体上中立的平台,尽管它对其平台的使用进行监控,以防止潜在的滥用(如制造深度假唱)。谢门透露,正在为新闻和体育赛事等内容进行实时翻译,以及更细化地控制和完善其人工智能生成的声音的表现力的能力。

"[配音]的价值是显而易见的:人们在观看非自己语言的短视频时,能保留41%的信息--当有字幕时,他们能保留50%,当通过Papercup配音时,他们能保留70%。这比单纯的字幕提高了40%,"Shemen说,"通过真正有感情的跨语言人工智能配音,Papercup可以处理所有形式的内容,使视频和音频对每个人来说都更容易获得和享受。"

Papercup目前在伦敦有38名员工,翻译网络遍布三大洲。该公司预计,到今年年底,这一数字将翻一番。