原文首发于2023年2月1日
去年的扩散生成模型(文字生成图片),今年的ChatGPT又火了,AIGC(AI自动生成内容)怎么突然这么火?
2023年1月31日,Netflix宣布,其与小冰公司日本分部(rinna)、WIT STUDIO共同创作首支AIGC动画短片《犬与少年》,讲述了一个小孩与一只机器狗的重逢故事,如上图。通过人工智能技术绘制完整动画场景,为动画制作揭开新的未来。
AIGC目前已成为全球热点,但多数仍停留在技术演示阶段,普遍尚未实现作品级落地。《犬与少年》就成了AIGC技术辅助商业化动画片的首支发行级别作品。
AIGC风口已到
OpenAI的轮番路演(diffusion+chatgpt)下,AIGC成了当红炸子鸡,覆盖文本,语音,图像等等…
各个投资方跃跃欲试,生怕错过此次风口。红杉单独发布了AIGC报告,描述蓝图显示,AIGC包含了文本、语音、图像、视频、3D等方方面面。
比尔盖茨一声令下,微软开始 all in chatgpt了
当整个科技界对Web3和元宇宙的讨论到最高点的时候,比尔盖茨在美国社交新闻网站Reddit问答帖下的亲自回复,引起了轩然大波。
-
AI is the big one,” Gates said in response to a user who asked if there is a mammoth shift in technology happening today. “I don't think Web3 was that big or that metaverse stuff alone was revolutionary but AI is quite revolutionary.
-
Web3没那么重要,元宇宙没革命性,人工智能最重要。
ChatGPT火了
GPT系统模型经过了多次蜕变,直到2022年11月才在GPT 3.5+RLHF结合下诞生ChatGPT。
短短两个月时间,ChatGPT已经衍生出一系列创业生态,比如卖账号(淘宝一堆),小程序(挣广告费),写手,短视频…全网都在讨论ChatGPT。
说不定ChatGPT真的变成AI届的HTML,必备的基础工具
ChatGPT持续进化
连夜迭代后,ChatGPT增加了基于事实计算能力,“老婆”不再管用了,已经可以根据用户反馈修正答案了(尚不支持中文运算优先级),虽然还有些拼接痕迹
改进前
改进后
亲测具备一定理解能力了,不用再用死板的意图识别➕槽位抽取➕状态机之类的软规则了…
文生图(扩散模型)
类似的,去年扩散模型发布后,文字生成图片的效果也让人眼前一亮,纷纷跑过去体验text2image…
案例:输入一行文本,直接生成一张符合语义的图片
-
(1) Fine, beautiful country fields, super wide angle, overlooking, morning by Makoto Shinkai.
-
(2) A beautiful painting of a starry night, shining its light across a sunflower sea by James Gurney, Trending on artstation.
-
(3) Fairy tale steam country by greg rutkowski and thomas kinkade Trending on artstation.
-
(4) A beautiful render of a magical building in a dreamy landscape by daniel merriam, soft lighting, 4k hd wallpaper, Trending on artstation and behance.
AIGC为什么火
传统判别模型解决模式识别问题(条件概率),理解能力有限,而生成模型(联合概率)赋予了AI灵魂,开始从工具进化到“人”,总算有点AGI的样子了,不用再准备数据,根据下游任务finetune了…
回到主题:AIGC为什么火?《腾讯研究院AIGC发展趋势报告》中提到:内容创作模式的四个发展阶段
-
PGC:专家制作,2000年左右的web 1.0门户网站时代,专业新闻机构发文章
-
UGC:用户创作,2010年左右web 2.0时代(微博、人人之类),以及移动互联网时代(公众号),用户主导创作,专家审核
-
AIUGC:用户主要创作,机器(算法)辅助审核,如在抖音、头条、公众号上发视频、文章,先通过算法预判,再人工复核,在成本与质量中均衡
-
AIGC:AI主导创作,以2022年底先后出现的扩散模型、chatGPT为代表,创作过程中,几乎不需要人工介入,只需一句话描述需求即可。
AI自动生成内容的方式实现了AI从感知到生成的跃迁。
目前AIGC处于技术成熟度曲线(gartner)爬坡期,gartner将AIGC列为2022年最有影响力的5大技术之一。
2022年也被称为AIGC元年,技术角度上,过去几年生成算法(VAE/GAN)、预训练模型(Transformer/GPT)、多模态技术(CLIP/DALL-E/扩散模型)的不断积累、融合,催生了AIGC的爆发
AIGC产业生态逐步成型
-
基础层:大厂地盘,涉及云计算(亚马逊/微软/谷歌)、GPU(英伟达)、预训练(OpenAI/谷歌等)
-
中间层:垂直场景,模型及服务(Model as a service)类公司(如stable diffusion)
-
应用层:C端消费群体,聊天机器人,小程序,网页接口等
本轮技术奇点过后,看看AIGC应用能否爆发…
附录:相关资料见技术博客:wqw547243068.github.io/gpt