你以为 AI 只是让编辑们失业这么简单么?

2,537 阅读23分钟
前一段时间我们在科技类新闻网站上可以看到这样一条新闻,来源自 The Verge 在 5 月 30 号的消息:微软用 AI 取代了媒体编辑。国内的很多媒体在没有认真阅读原文并调研的情况下,就开始惊呼“编辑们要失业了!”。其实如果你真正仔细看了新闻,就知道这个事情的实质并没有标题那么“标题党”。微软用 AI 取代的媒体编辑,只是从事新闻的抓取、审核、配图和分发这部分工作,而这部分工作基于大数据 AI 确实会做的更好。

几乎同一时间,另一条消息的受众比上一条小的多,但是却真正让业内人士惊掉了下巴。这条新闻是 OpenAI 展示了 1750 亿参数的 GPT-3 模型。看起来这条新闻和上面的内容不太相关,但是背后的深刻联系才真正让人感到可怕。请允许我卖个关子,在后面慢慢来谈。

我想先抛出一个观点:信息技术发展的一个目标就是提高信息传递的效率。这个观点会作为一个基础,我们会尝试从这里出发能推导出什么。

为了让你能认可这个观点,我们先简单回顾一下信息技术的发展历史。

互联网信息技术发展的历史

语言和文字的创造就是为了交流,而交流本质是信息的传递。信息技术发展的一个目标就是提高信息传递的效率。纸张和印刷术使得信息的传递从空间和时间层面都得到了扩展。现代科技才真正打开了潘多拉的魔盒。互联网的出现真正让信息能够做到实时的传递。但是信息传递的效率并不等同于网络的速度,现代社会只是让速度不再是信息传递的瓶颈。

我们总结了一下互联网技术的发展的三个阶段。

第一阶段(1992-2000)

1992年互联网协会成立,推动创立了互联网协议和标准。

这是互联网的早期,互联网上面信息还很少,分散在各地,不便于人们发现查看。于是出现了工具做信息的收集和目录结构整理,代表公司就是雅虎(Yahoo)。

雅虎最早是由杨致远(Jerry Yang)创建,最早的名字就叫做“杰瑞的网络指南”(Jerry's Guide to the World Wide Web)。

这个阶段最主要解决的问题是互联网上分散信息的发现,当然这个时期还有一个重要应用就是电子邮件,很多信息的交流也是通过电子邮件进行的。但是由于单独电子邮件的覆盖很小(即使是邮件组),对于信息传播来说,远没有门户网站上的目录高效。

第二阶段(2000-2014)

这时互联网上的信息越来越多,基于目录结构收录并查询信息已经不够高效。这时,以谷歌(Google)为代表的搜索引擎的出现,大大提高了信息发现和传递的效率。用户不再需要通过翻阅目录来查找自己想要的信息,而是可以直接通过输入关键字看到所有相关的信息。
搜索相对于浏览对于用户来说效率就高了非常多,谷歌搜索引擎的搜索相关性做的非常好,即使它的功能相比门户网站单一,但是非常有效。谷歌早期的理念也是希望用户使用完就尽快离开,并不贪恋用户的单次使用时长。

第三阶段(2014-至今)

随着用户使用互联网越来越多,互联网对每个人的了解也越来越多。于是,信息的传递出现了范式的转变,从之前的人找信息,变成了信息找人。


在用户去搜索引擎寻找信息之前,用户已经在信息流产品中被推送了需要的信息。这个阶段主要的代表公司就是脸书(facebook)。2014年4月24日,Facebook宣布推出新闻服务 FB Newswire,一种面向新闻记者的最新服务。从此以后,用户在信息流主页(News Feed)看到的信息从朋友的状态真正变为世界上的所有内容。

现在,我们正在经历第三个阶段到第四个阶段的转换,但是第四个阶段是什么呢?它又会以什么方式进一步提高信息传递的效率呢?这里的关键技术就是人工智能

人工智能技术会带来的影响

在互联网技术发展的第二和第三阶段,已经可以看到人工智能技术的应用。搜索中有大量的机器学习技术得到应用,事实上,AI 技术最强的公司正是从搜索引擎的公司开始的,一段时间内,几乎所有 NLP 的博士毕业生都被谷歌收入麾下。


第三阶段的信息流产品中,机器学习算法得到了更多的应用。大量的用户数据被喂给了机器学习算法来对用户的兴趣进行建模,并对每个用户看到的信息流进行个性化

个性化在当今的移动互联网无处不在,由于手机和个人身份的强绑定,移动互联网对每个人的了解远远超过以往。几乎所有的应用都做了深度的个性化,从你打开今日头条看到的个性化信息流,打开淘宝看到的千人千面的商品展示,到打开大众点评看到餐馆推荐。除去主动搜索部分看到的信息,人工智能几乎已经掌控了你能看到的推荐信息的所有内容。

信息分发之外

虽然我们已经看到信息传递的方式在互联网的历史上已经经历了三个阶段,但是我们可以注意到上面讨论的信息传递效率的提升基本都是关于信息分发,但是信息传递除了分发,还有一个很重要的环节在分发之前,那就是信息的生产

内容生产也会影响信息传递的效率

信息的生产其实是一个对传递效率一直很重要但常常被忽视的方向。不止是信息的分发方式,信息本身的形式也会极大的影响信息传递的效率。

比如,当你看到一个新闻,打算把它讲给别人,这时你会发现你的表述方式是会根据听众而有所变化的。同样一件事,你讲给父母、同事、伴侣、或者孩子,很可能都会使用不同的表述方式。这是因为当你了解了你的听众,你就会选择对他们来说接受效率最高的信息表达方式,避免讲述对他们来说有歧义,不理解的东西。

另外,同样的信息,不同的媒体形式也会非常大的影响传递效率。一个需要空间想象能力的信息,比如介绍我们的宇宙有多大的尺度,如果使用文字就很难比较准确的表达出来宇宙的尺度究竟有多大,这个时候视频的传递效率就会高很多,比如这个视频

很多人会觉得今天是一个信息爆炸的时代,内容对我们来说不是太少而是太多。目前全网的长文章数量,每天微信公众号平台大约产生接近 100 万篇文章,其他平台如今日头条,百度百家号等等大概也是这个量级,全网总的文章数不会超过 1000 万(这里不把微博这种碎片化的短文本作为文章考虑),而且其中有大量重复的内容(重复包括直接的转载,或者少量修改后的洗稿)。去重后的文章数量大约也就在小几百万左右。

内容总量看起来是不少,但是考虑到我们的信息消费者有十几亿,我们的信息内容多样性是远远不够的。另外一个角度来看,当你真的想去看某个话题的文章时,你常常会发现找不到相关的内容,或者找不到适合你看的这方面的内容。

内容生产的几个阶段

每个内容分发的平台首先都需要有内容来分发,这就离不开内容生产的阶段(当然有些平台早期是靠“搬运”来产生内容的,可以认为“搬运”也是一种生产内容的方式)。这些平台上的内容生产大都会经历下面的阶段。

UGC 阶段

UGC 就是用户生产内容(User Generated Content),互联网和移动互联网的拓荒期都有大量 UGC 的平台,包括 Youtube,Twitter,微信公众号,抖音等。这个阶段大量的人会尝试在这个新平台上创造内容,用户刚到这个平台上时甚至会看到很多周围相识人创造的内容。这个阶段产生的内容数量会快速增长,但是其中高质量的比例比较低。

PGC 阶段

PGC 就是专家生产内容(Professional Generated Content),基本上所有 UGC 的平台慢慢都会变成 PGC。大部分的用户是没有能力,也没有资源去持续输出高质量的内容的。流量就会自然而然的集中到专业人士的账号上。当然这里的专业人士可能有可能是传统行业中的专业人士,也可能是从一开始的普通用户成长起来的,但是最终绝大部分的内容都会由专业人士创造。

MGC 阶段

MGC 就是机器生产内容(Machine Generated Content),当专家进一步理解了一种内容形式的特点,就会总结出制作这种内容的套路。学会这种套路,内容的生产效率就会提高。为了进一步提高效率,最终这种套路会变成算法交给机器去学习并实现。这时算法产生的内容就就 MGC。

国际市场上已经有公司在专门做 MGC 的产品。Automated Insights 公司的产品 Wordsmith 已经被诸多品牌公司,包括像美联社这样的通讯社采用。根据 Automated Insights 公司的统计,Wordsmith 平台上每年会写出 10 亿篇文章以上。国内也有一些相关的智能写作产品,比如今日头条的小明机器人,腾讯的 dreamwriter 等。三年前新华社就在第四季世界互联网大会上宣布已搭建起了中国第一个人工智能媒体平台“媒体大脑”。这些都是今天的 MGC 内容。但是总的看来,今天国内 MGC 的内容量并没有很多,这个方向还在探索阶段。

信息传递效率提升的下一个阶段

讲到这里其实我们前面关于未来方向问题的答案已经呼之欲出了,我们认为信息传递效率提升的下一个阶段就是从内容分发的个性化发展到内容生产的个性化。也就是类似下面的场景:
有一天当你打开查看新闻的 App,上面所有的内容都是专门为你创作的,不但是符合你兴趣的话题,连内容细节和表达形式都是考虑了你的知识背景,专门为你斟字酌句的,方便你更高效的吸收这里面新的信息。
看起来是一个很神奇,但是这是按照逻辑推演的一个很合理的结论。后续的问题是,这一天离我们还有多远?为了回答这个问题,我们需要看一下当前人工智能在内容生产方面的技术水平。

当前算法可以生产什么样的内容

大家可能没有意识到,信息的生产这个方向其实也有两家重量级的公司,那就是“苹果”和“微软”。它们的重心虽然不是直接生产内容(当然它们现在也生产不少内容),但它们最重要的产品却提供了生产内容的生产力工具。同时也在推进人工智能在生产力工具上的使用,但是相对比较保守一些,当然主要原因还是技术没有那么成熟。

目前算法能够产生的内容确实还有不少局限,但是已经可以在很多场景得到应用。比如:标题生成,文本改写,错别字检测,海报的自动生成。字节跳动(今日头条和抖音的母公司)在 2018 年组织的 Byte Cup 就是一个自动文章标题生成的任务。(讲到这里顺便提一下,我们团队的 nilboy 同学在这个比赛中获得第一名)

算法创造的内容有价值么?

有人肯定会质疑算法到底有没有能力创作有价值的内容。

首先我们看一下人创作的内容都有什么?创作内容时很大的一部分信息来自于素材,无论是写文章还是做海报,都需要先收集好足够的素材。一般来说,大量的素材并不是原创的,而都是收集来的。内容的另一部分就是结构和逻辑,使用一个逻辑结构将素材组织起来,加以表达上的调整,就可以得到内容。我们常听说“天下文章一大抄,看你会抄不会抄”,某种程度就说的这个意思。

其实对于大部分人来说,我们并没有太多获得最原始信息的方式,大部分我们的信息都是通过阅读得到的。当然有些专业编辑是会通过人类学的方式在田野调查中获得一手的信息。但是一个通常的网络编辑,他更多的是通过阅读大量关于一个话题的已有信息,将这些信息作为素材,通过逻辑组织把其中合适的素材重新拼接在一起,从而产生一篇新的内容。也有很多内容工厂,甚至只通过适量修改别人的内容产生新的内容。


另一个例子是古体诗,“熟读唐诗三百首,不会作诗也会吟”。今天使用 NLP 技术生成新的古体诗已经是非常容易的事情,清华大学的“九歌”系统甚至在内容和意境上都可以和人一拼。(我们在三年前也做过一个叫“李白”的小 demo 来展示当时 NLG 的能力)

算法产生内容的逻辑和人并没有本质区别,也是从素材的收集和理解开始,使用合适的逻辑进行组合产生的。所以,这个问题的答案我认为是毋庸置疑的。事实上,算法已经创造了大量有价值的内容。

目前算法创造内容的方法

我们先简要介绍一下目前算法创造内容的两个主要方法。

模板和专家系统方案

模板和专家系统方案在自然语言生成或者自动化设计中都有非常多的应用,我们在实际业务中也会使用。上文提到的 Wordsmith 主要的文本生成方案就是基于模板和专家系统的。但是 Wordsmith 已经是 AI 时代前设计的产品,其中智能的模块并不多。基于这个方案也会有很多问题和不足。比如腾讯视频曾经推送过下面的消息:

发生这个可笑的错误原因是因为这个消息是由模板生成的,而应该填到“几“人死亡的地方的信息由于某种原因缺失了,变成了空,就产生了这个一条耸人听闻的新闻。

神奇的语言模型方案

语言模型是一种基于统计学习的语言自动生成模型。前面提到的 GPT-3 就是一个基于神经网络的语言模型。之所以叫 GPT-3 是因为前面还有 GPT 和 GPT-2。去年 OpenAI 发表 GPT-2 就产生了很大的影响。当时模型的大小达到了 15 亿(当然今天这已经不能算很大了)。这个工作原论文的洞见是想说用训练无监督的大规模的语言模型本身就是一个很好的通用模型,可以胜任不同类型的多任务,甚至不需要微调。这个工作更吸引眼球的结果其实不是在文章中的实验结果,而是附录以及 OpenAI 在博客中文章中给出的自动生成的文章的例子。博客的文章里给了多个例子,大部分的公众号只摘录了第一个关于“独角兽”的例子。
在这个例子里,我们只给了这个模型两句话作为开头:
科学家们有个令人震惊的发现,在安第斯山脉一个偏远且没被开发过的山谷里,生活着一群独角兽。更加让人讶异的是,这些独角兽说着完美的英文。
模型开始一本正经地编了下去:
这些生物有着独特的角,科学家们就以此为它们命名,叫 Ovid’s Unicorn。长着四只角的银白色生物,在这之前并不为科学界所知。……虽然,这些生物的起源还不清楚,但有些人相信,它们是一个人和一个独角兽相交而诞生的,那时人类文明还不存在。Pérez教授说:“在南美洲,这样的现象很常见。”
需要说明的是,这些例子其实都是挑出来的比较好的例子,语言生成中的重复问题,常识错误问题并没有解决。例如,“独角兽”的例子是第十次采样才得到的好的例子。能够生成通顺文章的比例大概在 10%-50% 之间。
但是今年的 GTP-3 模型,在效果上又有了进一步的提升。在给出标题「联合卫理公会同意这一历史性分裂」和子标题「反对同性恋婚姻的人将创建自己的教派」后, GPT-3 生成了下面的新闻内容:
据《华盛顿邮报》报道,经过两天的激烈辩论,联合卫理公会同意了一次历史性的分裂:要么创立新教派,要么则在神学和社会意义上走向保守。大部分参加五月份教会年度会议的代表投票赞成加强任命 LGBTQ 神职人员的禁令,并制定新的规则「惩戒」主持同性婚礼的神职人员。但是反对这些措施的人有一个新计划:2020 年他们将形成一个新教派「基督教卫理公会」。《华盛顿邮报》指出,联合卫理公会是一个自称拥有 1250 万会员的组织,在 20 世纪初期是「美国最大的新教教派」,但是近几十年来它一直在萎缩。这次新的分裂将是该教会历史上的第二次分裂。第一次发生在 1968 年,当时大概只剩下 10% 的成员组成了「福音联合弟兄会」。《华盛顿邮报》指出,目前提出的分裂「对于多年来成员不断流失的联合卫理公会而言,来得正是时候」,这「在 LGBTQ 角色问题上将该教派推向了分裂边缘」。同性婚姻并不是分裂该教会的唯一问题。2016 年,该教派因跨性别神职人员的任命而分裂。北太平洋地区会议投票禁止他们担任神职人员,而南太平洋地区会议投票允许他们担任神职人员。
在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为 12%。
使用这种方法,系统可以根据用户前面写作的内容,自动生成后面的内容供用户修改。Gmail 中的智能补全(smart compose)就是用的这种语言模型的方案。这种方案我们在自己的智能编辑器也在尝试。但是这里最大的问题在于即使生成的文字是通顺且一致的,如果和编辑的思路不一致,也不会对效率有明显的提升。另外语言模型仍然存在生成内容重复,常识错误等问题。我们需要思考可控内容生成的问题,包括保证信息准确和限制内容风格等。当然提高生成内容的多样性也是一个没有得到很好解决的问题。

总结起来,目前使用类似语言模型的算法最大局限就在于对自动生成内容的控制缺乏上。去年有一篇论文《Controllable Text Generation》在 twitter 上被指标题党,后面只好改成了《Toward Controlled Generation of Text》。真正写过文章的人都知道,文章不是写出来的,而是改出来的。每次有人(包括自己)阅读草稿,都会有修改意见,而根据意见做修改这个过程在目前的机器学习算法中并没有很好的被建模和学习。

人机协同

鉴于以上提到的技术缺陷,目前最可行的方案是人机协同。就是机器负责一部分工作,再由人在机器的工作基础上改进,最终达到满意的效果。但是,人机协调看起来挺好,但是要想这个方案真的有效,确实有很重要的条件:
机器虽然不用产出完美的内容,但是也必须产出足够好的内容。
比如,达标直接可用是 10 分,如果机器产生的内容不到 8 分,那么这个机器产生的内容完全没有价值。注意,这里机器产生内容的质量和价值并不是线性的关系。这里的陷阱在于,如果机器产生的内容在 8 分以下,人去改进这个 8 分的内容到 10 分,可能消耗的精力和自己去做差不多甚至可能会更高。

我们团队在做电商内容生成的时候,大概用了半年的时间把算法生成的内容效果从 5 分提升到 8 分,后续又优化到 9 分。算法效果的不断优化使得一位编辑原本平均一天产生10篇内容提升至100篇左右。

可以看到,我们今天的人工智能技术水平还做不到对内容生产的个性化,仍然在内容生产的自动化阶段探索。但是,技术的进步速度也是飞快的,自然语言处理(NLP)这两年在大数据加大算力的支持下突破了很多之前的瓶颈。我们相信,以后大家在网络上看到的内容,会有越来越多的比例出自人工智能之手。

最后

国内也有一些相关的智能写作产品,比如今日头条的小明机器人,腾讯的 Dreamwriter,但是这两个产品是字节跳动和腾讯的内部产品并未对外服务。另外市场上也有京东人工智能开放平台上的智能写作产品,智搜 Giiso, Get写作等产品,使用的用户并不多,在其平台上产生的内容也非常有限。总的来看,智能编辑器的市场仍然有非常广阔的空间,国内还没有影响力比较大的产品出现。所以目前大家的主要工作还在市场的拓展,要把内容创作人员从旧的创作模式变为与 AI 结合的新的创作模式。

内容生产的个性化离我们还有一段距离,现在我们还在探索内容生产的自动化,但是我们相信这个方向是信息技术进一步提高信息传递效率的必然阶段。而在这个方向上,也必然会产生和微软,苹果,雅虎,谷歌,Facebook 一样量级的公司。艾耕科技也希望能够在这个方向上做出自己的贡献。

关于艾耕科技

艾耕科技,是一家致力于将最先进的 AI 技术应用在内容生产领域来提升内容生产效率的创业公司。

艾耕科技在自然语言理解、内容生成、搜索引擎、知识图谱、推荐系统、聊天机器人、图像视频理解等领域有丰富的技术积累。

公司拥有一支顶尖的算法团队,包含了多名来自于微软、阿里、百度、华为等知名企业的专家;同时我们也拥有来自一线互联网公司的工程团队和产品团队,使得我们具备强大的架构设计、代码实现、工程效能提升、算法优化及产品创新等能力。

截止目前,艾耕团队成员在 AI 领域主流会议和刊物发表了数十篇学术论文,公司取得专利及软件著作权十余项。同时,我们也积极参加业内领先竞赛来增进相关技术交流。除了上文提到Byte Cup比赛中获得第一名外,我们在2017 年的 SQuAD比赛中曾超越微软、Google、Facebook等公司位列第二名。2019 年,艾耕科技成功入选微软加速器。同年在机器之心的年度评选中获得中国十大最具潜力 AI 公司的奖项。并且被杭州市评为 2019 年度杭州市领军型创业团队。

我们坚信技术创造价值,希望成为富媒体生产这个千亿市场中生产力释放的中坚力量!欢迎有更多对AI+内容生产领域感兴趣的小伙伴加入我们!

简历投递邮箱:hr@aidigger.com(收到简历当天必回哟!)

咨询电话:0571-81061991
                                       
                                            扫一扫,也可直接投简历