音视频技术巡礼:字节、阿里、英特尔的落地实践丨XDC 2022

1,432 阅读8分钟

技术重塑了人与人之间的连接方式,不管是线上交流、协同办公、还是短视频、直播等,都离不开音视频技术的支撑。在这个过程中最重要的,莫过于保证音视频的高质量、高流畅与低时延,这也是音视频技术专家们所致力于实现的终极目标。

而随着 5G 以及 AI/AR/VR 等技术的发展,在未来,将会有越来越多互联网场景嵌入音视频功能,4K/8K 更高清的通话场景将变为主流,且各种物联网设备的接入场景也会增加,这意味着 RTC 技术、视频云技术、视频编解码技术等服务商需要提供更好的支持,确保业务场景日益复杂化下,用户仍能获取音视频高清、稳定、流畅的体验。

音视频体验的升级,成本、计算、传输的持续优化,也带来了更多视频云技术的突破和 RTC 的最佳实践。7 月 22、23 日即将举办的2022 稀土开发者大会上,由飞书中台研发负责人赵鹏伟作为出品人的 《音视频技术》 专场,将聚焦音视频技术的挑战、创新与实践,帮助音视频开发人员更好地理解技术与行业。本届开发者大会免费报名中,点击链接识别海报二维码即可与各位牛人分享交流。

演讲主题:视频云的机遇挑战与最佳实践方案

在这次的分享中我们主要来分析近几年视频云技术的发展和遇到的各种挑战。以及为了应对视频处理的各种需求,在服务器平台的最佳技术解决方案。

演讲大纲:

  • 视频云市场和行业分析
  • 基于 Xeon 平台的高性能视频处理方案
  • Xe 硬件加速方案介绍
  • 异构平台的视频处理性能调优和分析

演讲嘉宾:

陆扬 英特尔视频云首席架构师

英特尔 17 余年的工作经验,10+ 年互联网客户合作经验,致力于至强异构计算架构和平台技术解决方案,领域包括:视频云和视频分析、云游戏、视频处理性能优化;云平台性能分析和调优、向量化指令集 SIMD ;分布式计算以及 AI/ML/DL。

演讲主题:迈向极致高清——字节跳动次世代编码技术演进之路

视频化及高清视频化的大趋势不可阻挡,而成本、体验、计算、传输等层面的持续优化成为了业界关注的重点。视频编解码作为视频技术的基石,其在视频技术体系中的高价值已是业界共识。在以 VVC、AV1、AVS3 为主的次世代视频编解码技术中,字节跳动作为新生代力量却发挥了重要作用。团队从零组建参与标准制定,到提案和专利数量名列前茅,并获得 AVS3 产业技术创新奖。在编解码器产品化实现方面,从零起步自研编解码器,从一开始的超高复杂度,到最终找到突破口实现大幅优化,BVC2 编码器获得了上百倍的加速,并斩获 MSU 比赛离线编码赛道多项第一。BVC2 解码器采用精简架构和流程,在计算、判断逻辑、访存等方面打磨每一个细节,最终实现首个移动平台 8K 60fps 软件解码。BVC2Live 编码器进行了进一步演进,为实时应用场景进行精细化重构,节省了大量的流程和计算,并探索各个编码工具的最佳性价比的使用方式,实现了次世代标准的全高清实时编码。技术不断进步,团队也在不断演进中。

演讲大纲:

  • 次世代视频标准简介:以 VVC 和 AVS3 为例

    • 编码标准发展历程
    • 编码标准基本框架
    • 次世代编码标准核心进展与字节跳动的主要贡献
  • BVC2 编码器:从零到夺冠之路

    • 编码器架构与复杂度分析
    • BVC2 编码器加速的关键技术
    • BVC2 编码器性能提升的核心思路
  • BVC2 解码器:面向 8K 的极致优化

    • 解码器优化概述
    • 基于 neon 的极致性能优化
    • 访存与分支判断优化
    • GPU 异构并行优化
  • BVC2Live:重构细节,迈向实时

    • 基于有限工具集的精简架构
    • 重构细节消除冗余逻辑和计算 -低复杂度高性价比的探索

演讲嘉宾:

王杰西 火山引擎多媒体实验室资深视频算法工程师

本硕毕业于北京大学计算机系,目前主要参与视频、图像编解码及处理相关研发和优化工作。作为字节跳动编解码方向最早的成员之一,从 0 到 1 参与了多个核心项目,在架构设计、工具开发、算法优化、汇编加速、测试集成等方面都作出了众多独创性的贡献,并在端侧性能优化上成果显著。参与的项目服务于字节跳动每日海量视频上传、转码、播放流程,应对日益增加的巨大计算挑战。

演讲主题:阿里云窄带高清 2.0 研发实践

随着 5G 时代的到来,互联网短视频、电影电视剧、电商直播、游戏直播、视频会议等视频业务呈井喷式发展。根据思科公司的预测,2022 年,在线视频将占所有消费者互联网流量的 82% 以上,将是 2017 年的 15 倍。作为通用云端转码平台,阿里视频云窄带高清产品需要处理各种质量的视频。对于中高质量的视频,现有的窄带高清 1.0 产品就能提供满意的转码效果;而对于有明显压缩失真和成像噪声的低质量视频,则需要使用性能更好的窄带高清 2.0 产品进行去压缩失真、去噪和增强处理,为了得到更好的观看体验,还需要对因为压缩等原因丢失的细节纹理进行修复,比如在最近某客户 NBA 比赛直播转码中就应用了窄带高清 2.0 的修复生成技术。本次演讲将和大家分享阿里视频云在窄带高清 2.0 方向上的研发实践与思考。

演讲大纲:

  • 窄带高清产生的背景
  • 窄带高清的技术演进大图
  • 当前技术瓶颈
  • 窄带高清 2.0 的突破
  • 商业应用
  • 总结思考

演讲嘉宾:

周明才(明烁) 阿里云智能视频云技术专家

毕业于中科院自动化所,计算机视觉方向,现任阿里云智能视频云技术专家,负责视频增强处理,致力于窄带高清 2.0 技术演进,为客户提供极致的视频体验。在计算机视觉、图像视频处理领域深耕多年,从 0 到 1 主导了支付宝春节红包 AR 扫福算法研发和 AR 平台体系建设,服务于历年支付宝春节红包活动。

演讲主题:RTC 最具挑战性的场景——从飞书会议说起

视频会议场景一直被认为是 RTC 最具挑战性的场景,一方面,它对抗弱网、低端机适配、降噪、多人上麦等都有极高的要求,对 Web 端的要求也远高于其他场景;另一方面,有很多孵化自会议场景的技术能力最终都被复制到了其他场景。本次分享将从飞书会议对 RTC 的技术挑战出发,分享火山引擎 RTC 的思考和最佳实践。

演讲大纲:

  • 会议场景面临的挑战

    • 普遍的弱网、弱设备环境
    • 复杂的终端适配
    • 各种噪声消除
  • 火山引擎的思考和最佳实践

    • 多宫格视图会议中的视频多分辨率、按需发布、动态弱网降级和动态性能降级策略
    • 3A 2.0 和深度学习算法在极致降噪中的应用
    • Web 端 AI 应用优化
  • 从会议到其他场景的 RTC 技术能力迁移

演讲嘉宾:

杨若扬 火山引擎 RTC 产品负责人

专注音视频领域研发和产品工作 13 年。主要负责火山引擎实时音视频产品化工作,支撑抖音、飞书会议、朝夕光年、大力教育等业务中的音视频通信的实现方案、体验优化和成本优化,并致力于打造 RTC 的行业标准化。

本届大会策划的专题除音视频技术以外,还包括了开源和商业化探索、大前端、低代码、业务背后的架构演进、微服务和 Serverless、云原生技术架构和变革等十数个技术专场,由来自字节、阿里、腾讯、快手等公司具备技术影响力与洞察力的行业专家负责议题把控,目前大会出品人已全部集齐,讲师阵容即将确认完毕。除了为期两天的沉浸式内容体验,稀土开发者大会还为万千开发者朋友们准备了丰厚的奖品,报名参会的开发者将有机会参与抽奖,赢取丰厚大奖, 敬请期待 。