跨语言、跨模态、跨任务的大模型,驱动应用生态繁荣

1,260

目前,大模型技术的不断发展,促进了智能系统快速发展,进一步提升了应用效果和效率。而在交互过程中所产生的新数据,又不断驱动大模型技术升级,从而形成了技术、应用、数据的闭环正循环,极大提升生产力,促进生态繁荣,使人们生活更加美好。 

大模型迭代闭环趋势

众所周知,大模型技术不断发展,已经从大模态发展到了多模态和跨模态,比如从Instruct GPT3技术发展到跨模态的DALL·E-2技术,同时大模型在应用过程中也产生了非常好的轻量级应用技术,比如Prompt Turning技术。这些技术发展促进了应用繁荣,比如最近半年出现的以AIGC应用为代表性业务的独角兽创企,达到了十亿美元以上估值。同时,大模型技术也促进了端到端智能系统的快速发展,进一步提升了应用效果和效率,而这些应用在与用户、环境的交互过程中产生了海量新数据,这些数据又不断驱动大模型技术升级,从而形成了技术、应用、数据的正循环。

f5568be64b58271310b4eddc657df25a.jpeg

大模型技术日趋成熟

在这个正循环里,大模型是根基。同时大模型不断发展,资深技术也日趋成熟。

自然语言处理领域,大模型具有更强的小样本学习能力,比如基于思维链的Flan-PaLM,该模型已经具有基本推理能力;再如基于层次化多任务学习的文心ERNIE 3.0 Zeus。同时为了进一步降低落地门槛,出现了效率高、泛化能力强的轻量级大模型,比如文心ERNIE 3.0 Tiny。

计算机视觉领域,百度提出了基于视觉掩码技术的文心VIMER-CAE,在图像分割任务中,该模型泛化能力较强。Google训练了一个模型参数规模高达170亿的多任务视觉学习模型PaLI,该模型在多任务学习上效果得到了显著提升。

跨模态领域,最近提出了扩散模型,该模型引发了文本到图像生成技术的变革,比如百度提出了文心ERNIE-ViLG 2.0,该模型可以生成语义更相关、质量更高的图片。同时这个技术浪潮也催生了文本到视频领域的技术革新,比如当输入“正在画肖像的泰迪熊”这句话时,大模型能够直接生成一个正在画肖像的泰迪熊的视频,诸如此类的技术不断繁荣。

0b7243f81b6cf6ea3906dcd3bc28857b.jpeg

大模型的使用门槛进一步降低

大模型的效果有目共睹,但在应用过程中,研发者需要进一步降低其使用门槛,主要面临两个问题。

第一个问题是面对大模型学习的海量知识和技能,如何在应用中有效激发,达到最好效果。针对这个问题,百度提出了Prompt技术,该技术能在下游任务中,通过使用Prompt去应用相关知识,从而提升模型效果。当前大模型已经能自己写Prompt,且超越了人类水平。因此,大模型在下游任务中的门槛进一步降低。

第二个问题是在一些应用场景中,对速度、时延、存储都有严格要求,如何使模型更轻量化也是大模型应用所面临的挑战。针对这个问题,百度推演出大小模型协同促进的研发范式,一方面大模型将效果推到极致,让小模型向大模型学习;另一方面小模型利用已有知识辅助大模型进行知识选择,提升迭代效果,降低使用成本,由此产生飞轮效应,促进大小模型协同进化。

63c29e1122e01b64ea055f04011e2cea.jpeg

大模型平台集约化加速应用创新

随着大模型使用门槛的降低,大模型应用呈现出集约化加速应用创新的趋势。比如百度以大模型能力为中心,构建了文心大模型套件ERNIEKit。

28820e752eec5bca1eb580e13b67dd1b.jpeg

基于该套件,用户能够实现数据处理、模型预训练、模型微调、模型快速部署等多维度能力应用,支持40多个场景,由此衍生出来的能力可以通过开发平台和服务平台,进一步赋能开发者和生态,最终实现整个平台覆盖大模型应用落地全周期,使得开发门槛进一步降低。

大模型驱动的产业应用创新

随着大模型能力不断强大,基于大模型的智能系统驱动应用端对端创新,使传统任务系统架构大幅简化,同时提升了应用效果和效率,从而加速数据和模型应用闭环建设。如百度文心百中端对端搜索系统,能够完成端到端的文本、图像、语音不同模态之间的搜索任务,相比以前级联的搜索系统,该系统能够更好利用用户模型和数据之间、端到端地优化效果简化整个流程,不仅获得更好效果,而且节省定制成本。

d5a098660a869af9c69b72597863571b.png

此外,在进行文档理解时,以前针对文档里的无结构化文本、表格、图像,分别需要一个模型,而现在能够使用统一的模型处理文本、表格、图像等多种格式和模态,实现使用一个模型处理多个任务,而且在公开数据集上已获得SOTA效果,使文档理解系统达到商业要求。

随着大模型技术不断发展,大模型也推动了AIGC的繁荣。目前,人们应用数据或者互联网内容,主要通过普通用户或者专家产生,也即UGC和PGC内容生产模式。但现在AI也可以生产内容,其优势是既能提升内容生产效率,也能创造出独特价值和视角。

e4cf55af9c1dce5f51af9945008be885.png

最近几年,很多国内外头部公司和创企公司都涌入AIGC赛道,同时,发展较快的AI作画、AI营销等应用都呈现出蓬勃发展趋势。围绕大模型AIGC能力,市场产生了很多应用,比如AI作画、AI营销等。AIGC除了生产文本和图像外,还能够生产视频和代码,生产代码主要是为了提升开发效率。

随着AIGC内容不断丰富,用户能够进一步探索应用效果,同时大模型也显著提升了交互体验。比如在多模态拟人效果上,基于大模型的数字人,借助形象、语音与表情更好地沟通表达、传递信息,从而大幅提升人和机器之间的交互体验。

de35ce0c3f9a6ff5e5c3a0dc51f12c65.jpeg

大模型还能够进行角色扮演,用户可以自定义机器人角色,比如定义为诗人、画家、政治家等,这样用户就可以在与机器交互过程中产生不同体验。

此外,机器人可以扮演知识大百科角色,比如一位学富五车的学者,这背后主要基于文心PLATO-K大模型。作为首个中文可主动查询利用外部知识的对话大模型,文心PLATO-K能够主动学习知识,提升用户体验。

与此同时,大模型也促进了传统行业向智能化发展,加速产业落地。比如在生物计算领域,Google推出了AlphaFold2,发布了2.2亿蛋白结构预测结果,解决了生物领域50年的难题。同时,百度也推出了HelixFold-Single模型,它是在AlphaFold2基础上提升预测效果,能够进行秒级别的蛋白结构预测,而且在抗体蛋白结构预测上,比AlphaFold2更优。

f1ccd3b064cb3884b845b59bcf82ffe8.jpeg

此外,大模型也能够跟行业大数据结合,在金融、电力、航天、汽车、媒体等行业里,大幅提升效果和效率。

大模型持续学习应用反馈数据

人们普遍认为人在学习过程中,如果想成为某个领域专家,存在“一万小时定律”,同时在学习过程中的反馈也非常重要。这个理论对大模型同样适用,即大模型需要向大数据学习,并在学习过程中不断获得反馈信息。因此,大模型能够持续学习应用中的反馈数据,尤其在环境和用户交互过程中,通过反馈不断提升模型效果,使大模型持续学习,从而达到更好效果。比如在搜索问答场景里,通过用户反馈,模型应用效果得到进一步提升。

eb7c1c70477b5472bbcb0db5a6574a35.jpeg

统一大模型进一步促进生态繁荣

随着技术、应用、数据闭环的不断发展,模型开始趋向于跨语言、跨模态、跨任务的统一大模型。

07d2dcb8802393b94f9cfea2f2ae13c7.jpeg

以前不同语言、不同模态和不同任务,都是单独模型;随着技术不断发展,现在能够对多个任务使用统一模型学习,比如模型能同时学习文本、语音、图像、视频等数据。而且模型在应用过程中能够与用户和环境进行交互,学习到用户行为和环境信息,比如时空数据和感知数据。而这些数据之间相互作用、相互补充,得以进一步提升模型效果,促进生态繁荣。

81082731352b12e8c4d8556d99d1e658.jpeg

在大模型发展过程中,首先将现有数据学习到模型中,并应用在各行各业的任务中。同时这些应用又可以产生新的数据,并且在模型里使用,逐渐循环形成了闭环。这个闭环能够极大提升生产力,使人们的生活更加美好。