终端视频播放技术概论

162 阅读7分钟

站在2023年底这个时间点,提问当今时代的终端播放产品应具备怎样的特点?我将这个问题的答案总结为四个字:沉浸超感

以沉浸式的观看交互,超越感官的视听体验,打造符合新时代特征的高质量终端播放产品。

沉浸超感之一:全景声

相比视频超清化演进之轰轰烈烈,音频听感在播放体验的评价中总是处于被忽视的地位。实际上,与画面内容匹配的音效是提高用户沉浸感和综合体验的重要因素。

举例来说,对于影视类内容,应以宽厚的声场营造环绕的效果,让用户拿着手机也仿佛置身影院;对于音乐类内容,应以音质为先,所谓『高音甜,中音准,低音沉』便是通俗易懂的诠释。

不仅如此,利用多声道和声音对象编码技术,还可以打造空间音频的感官体验,以声音的方位感给用户被拉入画面之中的体验。

沉浸超感之二:HDR

高动态范围,宽色域,高位深,这三点是HDR视频的核心特征。

更通俗地解释一下,你有没有想过,一直以来你在屏幕上看到的黑都不是黑,人们说的天空蓝,也从来没有在SDR视频中得到正确的呈现。

HDR视频就是以更生动的色彩呈现和更丰富的明暗层次,去接近人眼能容纳的动态范围,给用户带来最直观的视觉冲击。

沉浸超感之三:超低延时直播

不同于全景声和HDR,低延时技术并不直接影响用户的视听感受。在互动性、实时性极强的场景下,其价值在于以毫秒级的延时为用户带来极大的参与感,这种参与感进而演化为特定场景下的沉浸感。

电商直播,赛事直播是超低延时技术得以应用的典型场景,比起传统直播技术普遍三秒起步的延时,『少一秒有少一秒的欢喜』。

沉浸超感之四:虚实结合

想象你在温暖壁炉旁为一场比赛欢呼,亦或是在浩瀚星河之中欣赏一场演唱会。

元宇宙概念的兴起让传统视听语言有了全新的表达形式,性能迭代升级的硬件也让我们有机会融合虚拟与现实,催生出全新的终端播放玩法,超越用户的传统感官认知。


如何打造一款具备“沉浸超感”特质的终端播放产品呢?

现在,百度智能云播放器SDK全面升级,包含有全景声(WANOS)音频格式解码与音效处理、HDR多标准视频解码与渲染、超低延时直播、VR视频播放、智能防挡弹幕、投屏、绿幕抠图等高级功能,为用户带来更丰富的音视频体验。

我们还提供了基于Unity框架的播放器SDK,帮助开发者在元宇宙、游戏、VR/AR等场景中快速实现高性能且丰富的媒体播放功能。不仅如此,借助全景声技术,我们在Unity框架上还提供了6DoF空间音频能力,为用户带来视觉、听觉上完全的3D体验。

全景声(WANOS)音频格式解码与音效处理

全景声(WANOS)是我国完全自主知识产权的音频编码技术,结合多声道和多声音对象编码,可以提供沉浸式的全景听觉体验。

在播放器SDK中,我们提供了全景声音频格式的解码播放能力。

不仅如此,我们还基于全景声空间音效处理算法,针对包括扬声器和耳机在内的不同输出设备,提供了原声模式、电影模式、音乐模式、全景环绕模式等音效处理和切换能力,为用户带来更多样的音频玩法。

百度智能云音视频处理(MCP)同时支持全景声音频内容的生产,为用户提供完整的端到端全景声解决方案。

HDR多标准视频解码与渲染

在播放器SDK中,我们不仅提供了HDR10和HLG标准的支持,还支持了我国自主知识产权的HDR Vivid标准,其具备动态元数据、色调映射和饱和度调节能力。

除此之外,我们还通过高性能的后处理算法,让HDR视频在不支持HDR显示的低端千元机型上也能呈现出正确的色彩,让更多用户感受到HDR画面带来的震撼影像体验。

旧时王谢堂前燕,也飞入了寻常百姓家。

百度智能云音视频处理(MCP)同时支持HDR视频内容的生产,为用户提供完整的端到端HDR解决方案。

超低延时直播

百度智能云超低延时直播利用百度RTC技术,实现端到端延迟低于1s的直播观看体验,适用于电商直播、赛事直播等对实时互动性有要求的业务场景。

在播放器SDK中,我们不仅提供了超低延时直播的播放端支持,还利用UDP信令方案进一步优化首屏时间,同时支持H264/HEVC视频编码和AAC音频编码,还提供了对B帧的支持。

百度智能云音视频直播(LSS)支持超低延时直播的推流、分发。

VR视频播放

无论是VR180度视频还是VR360度视频,无论是点播VR还是直播VR,播放器SDK都提供了高性能的渲染能力,同时支持基于陀螺仪的视角控制。

在这里插入图片描述

更进一步,我们在Unity播放器SDK中也对VR全景视频的播放场景进行了展示。元宇宙+VR,沉浸超感plus!

智能防挡弹幕

在这里插入图片描述

弹幕体验同样获得了升级,利用百度智能云音视频处理(MCP) 对视频中的人体、人脸、重要文字等重点信息进行预先分析并生成蒙版,结合播放器SDK即可实现防挡弹幕效果,保留弹幕互动性的同时不遮挡画面重要内容,提升用户体验。

我们独具巧思的技术架构,还让智能弹幕的业务逻辑开发大大简化。

投屏

多屏交互,能让用户的视听体验从小屏无缝切换到大屏设备上。

在播放器SDK中,新增了DLNA投屏能力,允许用户将手机端的多媒体内容投送到盒子、投影、电视等大屏设备上,并且可以在手机端控制大屏端的媒体播放。而且无广告、无投屏设备数量限制!

绿幕抠图

在播放器SDK中,还提供了高精度、高性能的绿幕抠图能力,可实现对绿色或其他纯色背景的自动识别和抠像,背景可以实时替换为2D视频画面或虚拟3D场景,适用于电商直播、虚拟主播、元宇宙直播等场景。绿幕抠图功能可以配合播放内核使用,也支持作为独立组件单独使用。

vl_demo_8af6270.gif

新的改变

我们还进一步丰富了业务场景的展示,包括多维手势交互、画中画悬浮小窗、Feed流场景最佳实践、耳机操控、弹幕交互、外挂字幕、多音轨多字幕切换等内容。

以上业务场景代码全部开源,开发者可以选择即拿即用,快速升级视频应用体验,也可以选择基于开源代码实现更多的定制化需求。


目前,已有数百款大中小型应用接入了百度智能云播放器SDK,在百度内部也有诸多业务团队接入。

以上功能和DEMO体验都已于百度智能云开放,欢迎各位开发者体验。我们也期待与各位开发者共同合作,持续不断地为更广大用户带来优异的视听体验。