作者 | 田晓旭
采访嘉宾 | 陈炜、赵晓涵、王奇
本文是 “2021 年度技术盘点” 系列文章之一,主要介绍音视频在2021年的重要进展。
“2021年终技术盘点”是掘金推出的重磅企划,涵盖Serverless、Service Mesh、大前端、数据库、人工智能、音视频等众多技术领域。看过去,向未来,回顾IT技术在2021年的发展情况,盘点IT技术的重大事件,展望IT技术的未来趋势。同时,我们将开启第15期技术主题征文活动,一起来聊聊你眼中的2022年技术趋势吧!
如今,音视频技术已经渗透到了我们生活的方方面面,上网课、开直播、打游戏,甚至是在办理各种证件时都离不开音视频技术的支持。随着元宇宙成为新的“风口”,音视频技术变得更为惹人关注,2022年音视频技术会有哪些新的发展变化呢?
根据沙利文《2021上半年中国音视频解决方案系列追踪报告》,2021年上半年中国音视频市场规模超过300亿人民币,其中泛娱乐、在线职业教育、电商等是潜力较大的子市场。2021年下半年,元宇宙概念火出圈,受到资本的高度认可。虽然元宇宙目前还处于雏形阶段,但音视频无疑是实现元宇宙的重要途径,短期来看,2022年元宇宙热度将持续,带动音视频领域市场的小规模增长;长期来看,随着多领域技术的突破与沉淀,音视频应用联合元宇宙强C端场景,势必将打破天花板,突破想象,带来更多新鲜的落地实践。
突破想象,从“能用”走向“好用”
由于疫情持续推动了实时交互音视频的飞速发展,基于线上的视频非接触式沟通与协作成为人们生活、学习与工作的刚需。实时音视频从最早的社交、互动直播开始扩展到各行各业,例如企业协作、直播购物、素质教育、在线医疗、金融服务、民生政务等。
根据国内几大应用商店在多个行业近万个应用进行统计,2021年实时音视频渗透率已经突破30%,未来呢?声网创始人兼 CEO 赵斌曾在 RTE 大会上表示:“在未来几年,实时音视频技术在关键行业的渗透率将超过50%。”
超高清音视频的市场化是2021年比较惊喜的一个变化。
超高清音视频领域发生了几件值得关注的行业大事:
- 11月,高文院士牵头的“超高清视频多态基元编解码关键技术”项目获得了国家技术发明奖的一等奖;
- 自主产权的AVS系列标准被全球超高清联盟采纳为国际通用格式,在VVC/H266等国际标准的制定上掌握了重要的话语权;
- 研制了自主的超高清实时编码器和解码芯片,形成了“技术标准-芯片终端-系统应用”的完整产业链;
- 即将举办的冬奥会采用AVS标准、5G+8K的超高清直播,相信这会成为一个标志性事件;
那么,超高清音视频市场化面临的挑战是什么呢?最为明显的就是要保证稳定的网络和充足的带宽。任何网络波动都会对音视频质量造成影响,因此想要市场化,就必须实现网络状态的高速检测,以及适应各种网络状态的抗性和传输策略。
2019年3月,工信部与广播总局联合印发了《超高清视频产业发展行动计划(2019-2022 年)》。规划表示:到2022年,超高清视频用户数达到2亿;在文教娱乐、安防监控、医疗健康、智能交通、工业制造等领域实现超高清视频的规模化应用。国家电视总局局长聂辰席曾表示:“2019年中国超高清产业规模接近1.2万亿元,预计到2022年,中国超高清视频产业总体规模超过4万亿元。”
根据中国电子信息产业发展研究院发布的《超高清视频产业发展白皮书(2021年)》显示,2020年国内超高清视频市场规模达1.8万亿元,其中超高清视频核心环节直接销售收入超过8100亿元,行业应用规模超过9800亿元,硬件直接销售收入约900亿元,解决、集成方案等超过8900亿元。
今年就是超高清视频产业发展行动计划的最后一年,在5G的推动下,超高清视频产业的市场化到底会取得什么成绩,让我们拭目以待。
另一个变化是音视频编解码领域正处于一个过渡阶段。
声网视频工程团队负责人陈炜解释道:“目前音视频企业落地实践中多是三代编解码技术并存,比较典型的场景是低延迟通信上的流量以H.264为主、短时延直播使用H.265/HEVC比较多,而视频点播开始尝试H.266/VVC等新一代编码器。不过,Chrome浏览器开始支持AV1编码器,WebRTC在加速向AV1演进。对比VP9、H.264和H.265,AV1有更高的压缩效率和更高的视觉质量,并且作为免费开源的视频编码格式,具备更简单的专利条款。2021年,AV1被软硬件开发商迅速接纳,并在互联网公司内加速推广。”
2021年初,谷歌提出了基于深度学习的低码率语音编解码器——AI Codec Lyra。这点燃了沉寂已久的编解码圈,多家公司陆续发布了语音AI Coedc,从不同的底层技术视角验证了使用算力换取码率的可行性。
2021年8月,谷歌详细介绍了目前还处于实验阶段的音频编解码器SoundStream。它是一款端到端的“神经”音频编解码器,可处理的音频包括语音、音乐和环境声音,而且可以进行压缩和增强音频以消除背景中的噪音。据悉,3kbps SoundStream的性能接近9.6kbps的美国EVS处理器,并且性能超过了12kbps Opus编解码器。在相同比特率下,SoundStream的性能比当时版本的Lyra更好。而在几个月前,绝大部分从业者都无法相信3kbps能够编码出“可以听”的音乐信号。
2021对于编解码来说是突破想象的一年,而在未来,更重要的是寻找到方向性的突破。
除了编解码技术,传输也是音视频领域的重要组成部分,因此,2021年第三个变化是低延迟的音视频交互将会是未来的发展方向。
2021年,大家仍在研究追求音视频传输低时延,很多应用都会要求RTC服务商将端到端传输时延降低到100ms以内,例如比较火爆的云游戏、实时合唱等等。据声网产品经理王奇的介绍,目前声网在理想效果下能够达到64ms。
同时,还有一个值得关注的事件,音视频社交软件ClubHouse的估值从1亿美元迅速攀升到40亿美元。估值攀升背后最大的功臣之一就是逼真的临场感,而临场感的实现是通过RTC技术的低延迟,完美提升了观众的参与度,还原了线下沙龙的体验。
变革前夜:站在元宇宙风口的音视频
元宇宙的爆火也意味着音视频技术站在变革前夜的风口浪尖。
根据天眼查显示,截至2021年12月30日,境内已有超1.2万枚名称中含“元宇宙”的商标申请,名称含Meta、METAVERSE的商标申请量也分别有1700余枚、1000余枚。
“现实增强”和“虚拟现实”是与元宇宙强相关的两个技术方向。其中,现实增强是通过音视频技术还原出现实世界的状态,并在其上进行修饰,涉及到超高清视频传输、实景VR视频实时传输和3D光采集渲染等技术。
而虚拟现实则是通过技术手段在现实世界中构建虚拟的元素,或者是在虚拟的世界中加入真实的元素,实现虚拟与现实相互交融,相互影响,涉及到AR实时投影与实时背景分割等技术。
那么,在元宇宙概念的加持下,2022年音视频领域会有哪些变化呢?在声网资深视频算法工程师陈炜看来,随着网络设备和终端设备的更新,视频高清化、沉浸式体验以及低延迟交互将会是新的发展方向。
- 视频高清化:随着设备与网络的普及,视频应用高清化将成为新趋势,4K/8K分辨率、10bit色深、HDR高动态范围、60帧高帧率,超高清视频的采集、编解码、渲染等技术将得到普及。
- 沉浸式体验:元宇宙爆火推动了沉浸式视频体验的发展。VR/AR/MR/XR从概念开始走向商业化落地,从平面影像走向3D场景,从固定视角到自由视角,从现实场景到虚拟与现实结合,沉浸式的体验将持续演进,图像与图形技术的结合将带来身临其境的真实感与交互式体验。
- 低延迟交互:随着终端设备和网络基础设施的升级,编解码与传输技术的优化,低延迟交互场景的应用会进一步得到发展和普及:一方面,实时音视频会渗透到各行各业、各种应用场景中,成为一种基础设施;另一方面,新的应用场景对端到端时延提出了更高的要求,比如在线K歌、云游戏、工业互联网、自动驾驶等,进一步促进编解码技术、网络架构升级、传输协议优化等技术的发展。
“我很认同元宇宙的大趋势,”王奇表示:“我很期待未来3-5年,音视频从业者会在元宇宙领域迸发出什么火花。”
挑战无处不在,沉淀底层技术才是出路
机遇与挑战并存,2022年音视频行业处于高速发展期,对于从业者来说,首先要快速适应变化。随着音视频向各个行业的渗透,音视频技术、创新应用要积极与5G、AI、云计算、计算机视觉、图形学等技术交叉结合。
因此,在更为基础的技术领域,声网音频算法工程师赵晓涵提出以下可能会是2022年音视频技术落地的挑战:
- 更智能、鲁棒性更好的降噪算法:满足工业界需求的个性化降噪,它的进化可能来自语音圈和音频圈的技术融合,就如同 Lyra 一样。
- 沉浸感更强的空间音频算法以及端到端的空间重建解决方案落地:现有的空间音频算法本质上都是造出来的空间感,算法细节的优化有助于让造出来的空间更真实。长远来看,端到端的空间音频完美重建可能是最终的形态,而这强依赖于硬件的进步与带宽成本的下降。
- 结合AI的高清音频编解码器:基于AI的语音编解码器完成了从9kbps到3kbps的带宽下降,下一步值得研究的是196kbps到48kbps的下降,从带宽下降的绝对值来看,这个收益风险比是非常高的。
- 更精准和置信的QoE量化方案:它会包含两部分,一部分是线下的质量评估,更专业的测试方法论和测量更精准的硬件设施建设;另一部分是线上的质量评估,主要是算法设计,即如何用线上的数据直接推导出和线下测试对齐的体验指标。
赵晓涵表示:“随着业务和经济大环境的变化,从业者要更加沉下心来做好底层技术的研究与优化,将某项技术做到极致,或者找到新的发力方向,把业务爆发期做了95%的技术做到99%。”
采访嘉宾:
陈炜 声网Agora 视频工程团队负责人
先后在海思半导体、美满和AMD负责图像处理器的芯片与解决方案研发工作,在图像处理、多媒体与实时通信解决方案领域有多年积累,目前担任声网大前端视频工程团队负责人。
赵晓涵 声网Agora 音频算法工程师
毕业于北京理工大学,加入声网后担任音频算法工程师,先后进行过SOLOX系列编解码器、降噪、丢帧补偿、实时语音质量监控系统的算法研究和落地。
王奇 声网Agora 产品经理
先后在华为、网宿、腾讯负责通信及音视频TO B产品,熟悉市面上主流云厂商音视频相关产品,对产品商业模式与实际运营拓展落地的各项细节有着深刻的理解,现负责Agora泛娱乐与出海行业。
拥有十余年 B端产品经理实战经验,有过多款成功产品设计与商业化案例,涉猎的主要领域包括无线通信、大数据、直播与实时音视频,对通信行业应用有着深刻理解和丰富的经验,对B端产品的方法论有着充足的沉淀。
在疫情期间,通过音视频PaaS产品为腾讯会议,智学网,高思课堂等应用服务,支撑数千万学生和职员远程上课和办公的需求,每天通话分钟数30亿+
相关链接:
年终盘点Serverless:工业、学术、社区遍地开花,国内厂商迅速卡位