字节跳动双11电商直播技术大揭秘

458 阅读8分钟

近几年来,电商直播已经成为了双11促销活动中的重要形式。作为国内电商直播中的佼佼者,双11刚过,抖音便公布了“抖音双11好物节数据报告”。从报告来看, 10月27日至11月11日,抖音电商直播间累计时长达2546万小时,直播间累计观看395亿次,消费者品质购物需求旺盛,老字号产品、地方农货、非遗手工艺品销量增幅显著。在抖音超人气的流量背后,是字节跳动电商直播技术团队对技术的不断打磨。近日,关注音视频技术的LiveVideoStack采访了字节跳动直播团队中负责直播客户端SDK团队的徐鸿,请他来给大家揭秘双11抖音电商直播背后的技术实践,同时徐鸿也分享了他对音视频技术未来发展趋势的看法。

字节跳动 技术访谈 #010#

LiveVideoStack: 徐老师,请问您目前在字节跳动直播团队负责什么工作?

徐鸿:主要负责直播客户端SDK团队,也就是直播音视频的生产端和消费端,第一公里和最后一公里。

LiveVideoStack: 双11购物节应该是电商直播团队一年中最忙碌的时候,为了备战双11,你们通常会做哪些工作?

徐鸿: 为了备战“抖音双11好物节”,我们会做大量的准备工作,主要包括:

  • 对直播的带宽资源进行预估、预留;

  • 对服务进行压测、封版;

  • 对大主播的方案review、链路检查、资源调度;

  • 有跨区域直播的场景,我们会采用云导播的技术进行场景切换。

LiveVideoStack:在双11时,面对类似老罗(罗永浩)直播这样复杂的项目,字节跳动直播团队有哪些杀手锏?

徐鸿: 对一些重要的大型直播我们有比较完整的灾备重保体系,包括现场的导摄推流以及线上的转码、流量分发等环节。当然,现场大部分头部直播团队已经做得非常专业,有专业的导播团队,我们主要是在线上进行重点保障,主要包括DNS的容灾、CDN传输节点的容灾、转码的容灾、分发线路的容灾以及容量的容灾等。另外字节跳动硬件团队打造的直播一体机,可以很方便地实现:

  • 绿幕抠图算法,主播可以更换背景减少直播间布置成本,增加直播信息量(如电商直播介绍产品)。

  • 音频远场、近场两套算法架构,支持一体机从45cm~1.2m距离的拾音需求。耳返、闪避音频算法为主播在唱歌、聊天时提供了更专业的能力。

在部分头部的直播间试用后,画质、音质上均实现了不错的效果。

图片

字节跳动直播一体机

LiveVideoStack: 同去年相比,今年双11在主播端和观看端,有哪些新的玩法?电商直播有哪些新的趋势?

徐鸿:

  • 抢购明显多了,甚至出现了拍卖的形式,这也是一种趋势,对延时的要求会更高。

  • 画质更好,主播不再是单纯地讲PPT,会有一些商品的特写,对直播质量要求更高。

  • 很多主播都使用了绿幕抠图的功能,把真实的背景替换成效果更好的字幕+图片/视频;在场地的选择和创意上,有更多的想象空间,从而达到了更好的带货效果。市场上也出现了一些硬件设备,方便用户快速实现绿幕抠图的功能。

  • 虚拟偶像带货,比如洛天依、我是不白吃等主播,已经可以实现和真人主播一样随时和观众互动,新颖、好玩,吸引了很多二次元的用户。

LiveVideoStack:我们都知道,电商直播的实时性非常强,对技术的挑战也更大,尤其是在做秒杀活动的时候,任何的延迟和卡顿都将带来巨大的灾难。目前抖音的电商直播是如何解决延迟和卡顿这两大问题的?目前的延迟可以低到什么程度?

徐鸿: 延迟和卡顿一定程度上是互斥的,我们通过优化拥塞控制后的QUIC等传输协议、上行带宽自适应、上行和下行的节点优选、CDN内部链路的传输优化、播放端的ABR、缓冲区自适应等方式,平衡了电商直播对延迟和卡顿的要求。另外,我们还通过编码算法的优化、窄带高清、播放端超分等技术,达到用更低的带宽也可以给用户展现更高清的视频,从而更好地平衡卡顿。这里提到的优化手段都是经过线上A/B实验,通过用户“投票”的方式选择的方案。目前大部分电商直播间的延迟在3s左右,部分直播间可以到1s以内。

LiveVideoStack:除了粉丝众多的头部主播外,很多中小主播在直播时也很有可能出现大量用户涌入的情况,而且这种突然涌入是无法预测的,你们是如何处理这种“突发状况”的?

徐鸿: 我们有实时的热流检测以及CDN的容灾能力,当大量用户涌入时会自动启动更多的线路进行分发,在极端情况时也会考虑通过转码降低码率等手段。

热流检测有两种手段,一是通过客户端的日志进行直播流维度的聚合,统计出单路流的观众并发数;二是通过业务方的房间数据作为判断。

LiveVideoStack:双11期间,经常会出现直播间内上百万用户流量的并发,这个时候如果出现直播故障,你们会如何应对?如何做到快速感知和修复?

徐鸿: 重要的活动或者并发很大的活动会提前申请重保,这类直播我们会有专业的团队对直播稳定性和质量进行保障。有无损的自动容灾机制,出现问题也能第一时间降级。

一般直播出现的问题我们也能自动容灾掉,容灾机制还在不断完善中。质量故障报警已经做到分钟级。

LiveVideoStack: 您还有哪些字节跳动电商直播的最佳实践可以分享给我们的读者?

徐鸿:

  • 电商直播和普通直播越来越差异化,比如刚才提到对延时和画质的追求。

  • 特别是画质方面,很多算法不再适用,有些美颜、锐化会让商品失真,我们也会使用ROI(Region of Interest)检测与编码的技术对视频进行显著性区域检测,对主播和商品等用户更感兴趣的区域分配更多的码率,从而达到更好的视觉效果。此外,我们还做了转码端的窄带高清和播放端超分的后处理,使观众端可以看到的视频甚至比原始采集到的视频更清晰。

  • 字节直播在硬件上打造的一体机,在头部直播等场景下稳定性、音视频质量上均得到了很好的验证。

LiveVideoStack:随着5G时代的来临(5G意味着低延迟和大带宽),您认为 在电商直播这个领域,还会出现哪些技术上的突破?

徐鸿: 延迟上肯定会继续降低,1s以内已经成为现在时;在传输效率上,AV1/H.266等编解码标准为更高清的视频提供了可能性,已经开始商用、落地,值得一提的是,目前火山引擎也已经落地业界首个H.266端云一体视频解决方案;自由视角/光场视频等提供了更“真实”的交互感,可以让用户最大程度身临其境体验现场气氛;全景声也可以更好地还原主播端层次更丰富的真实声音,达到“声临其境”的效果;虚拟偶像的直播卖货的形式新颖、好玩、可爱,更受年轻朋友的喜爱。

策划:包研

编辑:Alex


讲师招募

LiveVideoStackCon 2022 音视频技术大会 上海站,正在面向社会公开招募讲师,无论你所处的公司大小,title高低,老鸟还是菜鸟,只要你的内容对技术人有帮助,其他都是次要的。欢迎通过 speaker@livevideostack.com 提交个人资料及议题描述,我们将会在24小时内给予反馈。