从一句评价回看GPT系列模型

95 阅读3分钟

2024年12月10日,OpenAI终于发布了备受期待的正式版视频生成工具——Sora。尽管Sora刚发布时,官网因过于拥挤而暂时关闭了注册,但这并没有阻挡人们对Sora视频生成效果的热烈讨论。许多人在第一时间将其与其他视频生成工具进行了对比。

然而,经过一周多的使用,关于Sora视频生成效果的评价并不乐观。虽然不少人对Sora的表现抱有期待,但结果却差强人意。这一点并非完全出乎意料,因为在Sora发布之初,OpenAI的CEO Sam Altman就已经给出了预警。他在推特上明确表示,目前的Sora就像是“GPT-1”——也就是说,Sora还处在一个非常初级的阶段

think sora like GPT-1

对于很多熟悉NLP领域的朋友来说,“GPT-1”这个名字并不陌生。实际上,GPT-1的出现标志着人工智能语言处理技术的一次重大突破。然而,由于GPT-1发布已经有些年头,甚至在很多人看来,它似乎只是一个历史名词。因此,为了帮助大家更好理解Sam Altman的这番话,我们不妨回顾一下GPT系列的历史。

GPT-1:预训练的曙光(2018)

2018年,在自然语言处理的天空中,一道耀眼的光芒划过——GPT-1横空出世。当时,ELMoBERT同时问世,这三个"英雄"彻底改变了NLP的游戏规则。

在此之前,预训练在计算机视觉领域已经大放异彩,但在自然语言处理中,它几乎是一片荒漠。原因很可能在于当时流行的LSTM和GRU网络扩展性有限,而革命性的Transformer架构,也仅仅在2017年被提出。

OpenAI的这篇题为《Improving Language Understanding by Generative Pre-Training》的论文,用1.17亿参数量和约5GB的书籍语料,证明了一个令人兴奋的可能性:通过在无标注文本上进行生成性预训练,并在特定任务上微调,可以显著提升语言理解能力
注意,此时NLP主要关注的还是在语言的理解能力上

GPT-1

GPT-2:无监督的力量(2019)

就在BERT横扫各大NLP榜单的背景下,OpenAI推出了GPT-2。这篇题为《Language Models are Unsupervised Multitask Learners》的论文,用1.5B参数量和40GB语料,向世界展示了一个惊人的事实:语言模型可以在无监督学习中,在问答、翻译、阅读理解等任务中,展现出令人震撼的性能。

GPT-2

其实除了上述事实,这一篇文章也间接说明了,Transformer结构具有更好的扩展性能

GPT-3:小样本学习的革命(2020)

到了2020年,GPT-3以45TB的训练数据和惊人的1750亿参数量,再次刷新了人们的想象力。其论文《Language Models are Few-Shot Learners》证明,仅通过少量示例和任务交互,语言模型可以完成复杂的自然语言处理任务,且性能直追甚至超越专门微调的模型

重返Sora:技术进化的启示

回看这个历程,仅仅三年间,GPT系列模型的性能就实现了跨越式进化。而当Sam Altman说Sora"就像视频领域的GPT-1"时,这何尝不是在向我们诉说:伟大的技术,总是从一个看似平凡的起点开始。

正如GPT-1到GPT-3的传奇,Sora的今天或许只是明天的序章

技术的浪潮,永远在继续


感谢阅读到这里,如果觉得这篇文章对你有所帮助,请关注算法工程笔记公众号!我将持续更新最前沿的技术动态,带来更多关于 AI 模型的评测、使用教程和实战分享。