从文本、图像到音视频,AIGC技术将如何重构我们的数字世界?

814 阅读5分钟

引言

1950 年,艾伦·图灵提出著名的「图灵测试」,给出判定机器是否具有智能的试验方法。16 年后,世界上第一款可人机对话的机器人“Eliza”问世,这是 AI 技术最早期的萌芽阶段。但由于当时的科技水平限制,AIGC 仅限于小范围实验。

AIGC的技术发展

Eliza 的出现代表了人们对人工智能和自然语言处理的探索和兴趣,同时也反映了人们对计算机能否模拟人类思维和语言能力的好奇和探索能力。

如今人工智能技术经历了几十年的起伏和发展,现代人工智能应用也变得越来越智能化和逼真。递归神经网络(RNN)和生成对抗网络(GAN)等深度学习技术的出现,也让 AI 能够更好地理解人类语言,并生成更加自然和流畅的文本、图像、音频等内容。

到了 2022 年,这是生成式 AI 的突破之年,最具代表性的就是 ChatGPT,其一经发布便引起了广泛的关注和讨论,被认为是自然语言处理领域的一次重大突破。3 月 15 日,OpenAI 继续发布了其多模态的训练大模型——GPT-4,在 ChatGPT 的基础上增加了强大的识图能力,模态更丰富,且研发速度之快,令人惊叹。

除对话聊天工具外,AI 在其他领域也取得了不小的突破,3 月 16 日,Midijournry V5 发布,可创造高质量、高分辨率、高逼真的图像。Runaway 于 3 月 20 日发布GEN-2 视频生成模型的试用申请,新增根据文本和图片生成视频的功能。3 月 22 日,代码托管平台 GitHub 再次发布重磅“炸弹”:GitHub Copilot X,用户只需“动动嘴”,它就能帮你把代码写了。

回顾技术的发展,我们可以发现,每一轮技术变革,都带来了产业级的投资机会。先行觉悟的人,会在其中获取巨大的利益,而后知后觉的人大几率是被社会推动着走。

例如互联网诞生起就催生了在线教育、数字娱乐和社交网络等新兴行业,进一步推动了人类交流和信息传输的领域发展。

智能手机的出现让用户不再受限于键盘和鼠标,带来了移动支付、共享经济、应用开发等一众产业机会,进一步改变了人们的消费和生活方式。

5G 技术的普及,也使得人们将能够更智能地与物联网、无人机、自动驾驶汽车等连接,这不仅催生了智能交通、智能物流、智能制造等新的产业链,而且也让传统行业趋向数字化、自动化方向转型。

以生产工具为标志的生产力的发展是社会存在的根本柱石,也是历史的第一推动力。这是马克思主义关于生产力理论的经典观点。历史的进步和社会变革都源于生产力和生产关系的发展和变革。生产工具越是先进,其生产力就越是强大。而如今 AIGC 技术似乎就是革命性的生产工具。

AIGC 技术正在经历新一轮的变革浪潮,其交互方式也从生成文本、代码、图片正朝着更多元、更自然的形式上发展。历史总在循环往复,互联网的交互形式最初也是从文本、到图像、到音视频再逐步发展到如今的互动音视频(直播)。现在 AIGC 也正朝着更加逼真的方向发展,随着技术的不断升级和深入,AIGC 将可预见地颠覆音视频领域。

大咖经验分享

AIGC 已经开始重塑音视频哪些细分领域了?距离 AIGC 全面赋能音视频行业还有多远?未来会不会出现更加智能化、高效化的音视频应用与创作形式?会不会有更加自然、智能的语音交互出现?

4 月 26 日(周三)晚 20:00,「TVP 技术夜未眠」第七期来啦,本期我们特别邀请了腾讯云直播、媒体处理专家工程师 赵军老师与上海交通大学电子工程系教授、图像所副所长、腾讯云TVP 宋利老师,与我们一起探讨 AIGC 在音视频领域的应用与发展。

讲师介绍:

赵军:腾讯云直播、媒体处理专家工程师

腾讯专家工程师, 开源爱好者,FFmpeg maintainer,目前在腾讯云音视频负责视频云的媒体处理框架以及优化等工作,同时也以开放的心态,持续在开源社区提交相关 Patch。

宋利:上海交通大学电子工程系教授、图像所副所长、腾讯云 TVP

上海交通大学电院、人工智能研究院、未来媒体网络协同创新中心教授、博士生导师,IEEE 高级会员,多媒体信息领域技术专家,图像通信与网络工程研究所副所长。主持国家 863 课题、自然科学基金等科研项目数二十余项,发表学术论文 200 余篇,授权发明专利 35 项,软件著作权 5 项。

添加云小助微信:tvp1215,回复「音视频」即可加入本次直播交流群,可以提前交流互动,并参与群内互动抽奖!

TVP技术夜未眠

TVP 技术夜未眠 —— 技术畅言,夜深不眠。聚焦最新、最热、最受关注的技术话题,邀请各领域资深专家对话 TVP 大咖,深度剖析技术原理,洞察互联网技术走向,碰撞出思维火花,照亮技术之夜。