多媒体直播技术

98 阅读7分钟

视频的基本元素

视频本身

静止的画面叫图像(picture)。连续的图像变化每秒超过24帧(frame)画面以上时,根椐视觉暂留原理,人眼无法辨别每幅单独的静态画面,看上去是平滑连续的视觉效果。这样的连续画面叫视频。

分辨率

分辨率是一个表示平面图像精细程度的概念,通常它是以横向和纵向点的数量来衡量的,表示成水平点数垂直点数的形式, 在计算机显示领域我们也表示成“每英寸像素”(ppi).在一个固定的平面内,分辨率越高,意味着可使用的点数越多,图像越细致。

码率

数据传输时单位时间传送的数据位数,可以理解其为取样率,单位时间内取样率越大,精度就越高,处理出来的文件就越接近原始文件,但是文件体积与取样率是成正比的。 一般我们用的单位是kbps即千位每秒。

封装格式

  • MPEG : 编码采用的容器,具有流的特性。里面又分为 PS,TS 等,PS 主要用于 DVD 存储,TS 主要用于 HDTV。
  • MPEG Audio Layer 3 :大名鼎鼎的 MP3,已经成为网络音频的主流格式,能在 128kbps 的码率接近 CD 音质。
  • MPEG-4(Mp4) : 编码采用的容器,基于 QuickTime MOV 开发,具有许多先进特性;实际上是对Apple公司开发的MOV格式(也称Quicktime格式)的一种改进。
  • MKV: 它能把 Windows Media Video,RealVideo,MPEG-4 等视频音频融为一个文件,而且支持多音轨,支持章节字幕等;开源的容器格式。
  • 3GP : 3GPP视频采用的格式, 主要用于流媒体传送;3GP其实是MP4格式的一种简化版本,曾经是手机视频格式的绝对主流。
  • MOV : QuickTime 的容器,恐怕也是现今最强大的容器,甚至支持虚拟现实技术,Java等,它的变种 MP4,3GP都没有这么厉害;广泛应用于Mac OS操作系统,在Windows操作系统上也可兼容,但是远比不上AVI格式流行。
  • AVI : 最常见的音频视频容器,音频视频交错(Audio Video Interleaved)允许视频和音频交错在一起同步播放。
  • WAV : 一种音频容器,大家常说的 WAV 就是没有压缩的 PCM 编码,其实 WAV 里面还可以包括 MP3 等其他 ACM 压缩编码。

视频压缩

视频的压缩有如下多种方式。

颜色空间压缩

由于RGB信号不利于压缩,提出了YUV颜色空间表示方式,其中Y就是亮度,U和V则是色度。 相对YUV444来说,YUV420能够减少一半的数据量。

帧内压缩和帧间压缩

帧内压缩仅考虑本帧的数据,实际上和静态图像压缩类似。

帧间压缩考虑到连续的视频相邻帧之间具有冗余信息,将帧分为I帧和P帧,分别代表帧内帧(Intra-frame)和前向预测帧(Predicted Frame),同时后面也加入了B帧(Bi-Directional frame),B帧可以参考插入在它之前和之后发生的两个或更多帧,能够利用空间冗余和时间冗余,这在视频压缩中非常有用。

不同场景下,GOP的设置也不一样,例如视频点播的时候会使用B帧来提高压缩率,而直播则只使用I帧和P帧来降低延迟,在视频编辑中则会使用全I帧来提高编辑过程中的响应。

视频编码格式

目前主流的编码格式有AVC, HEVC, VVC, VP9, AV1,压缩比越高的编码算法需要越高的算力来支持。

直播推拉流协议

推流协议

  • RTP :(Real-time Transport Protocol)是用于Internet上针对多媒体数据流的一种传输层协议.RTP协议和RTP控制协议RTCP一起使用,而且它是建立在UDP协议上的
  • RTCP:Real-time Transport Control Protocol或RTP Control Protocol或简写RTCP)实时传输控制协议,是实时传输协议(RTP)的一个姐妹协议
  • RTP协议和RTP控制协议RTCP一起使用,而且它是建立在UDP协议上的
  • RTSP:(Real Time Streaming Protocol)是用来控制声音或影像的多媒体串流协议,RTSP提供了一个可扩展框架,使实时数据,如音频与视频的受控、点播成为可能。

数据源包括现场数据与存储在剪辑中的数据。该协议目的在于控制多个数据发送连接,为选择发送通道,如UDP、多播UDP与TCP提供途径,并为选择基于RTP上发送机制提供方法 传输时所用的网络通讯协定并不在其定义的范围内,服务器端可以自行选择使用TCP或UDP来传送串流内容,比较能容忍网络延迟

RTP不像http和ftp可完整的下载整个影视文件,它是以固定的数据率在网络上发送数据,客户端也是按照这种速度观看影视文件,当影视画面播放过后,就不可以再重复播放,除非重新向服务器端要求数据。 RTSP与RTP最大的区别在于:RTSP是一种双向实时数据传输协议,它允许客户端向服务器端发送请求,如回放、快进、倒退等操作。当然,RTSP可基于RTP来传送数据,还可以选择TCP、UDP、组播UDP等通道来发送数据,具有很好的扩展性。它时一种类似与http协议的网络应用层协议。

  • RTMP(Real Time Messaging Protocol)实时消息传送协议是Adobe公司为Flash播放器和服务器之间音频、视频和数据传输开发的开放协议。基于TCP协议,技术成熟,低延迟,但是已经停止更新,且没有H265支持。

拉流协议

  • HTTP-FLV: 是Adobe公司为Flash播放器开发的一种网络视频格式。协议友好,格式简单,便于分发,不转码的情况下直接分发即可,延迟较低。

  • HTTP Live Streaming(HLS)是苹果公司(Apple Inc.)实现的基于HTTP的流媒体传输协议,可实现流媒体的直播和点播,主要应用在iOS系统,为iOS设备(如iPhone、iPad)提供音视频直播和点播方案。HLS点播,基本上就是常见的分段HTTP点播,不同在于,它的分段非常小。

HLS协议在服务器端将直播数据流存储为连续的、很短时长的媒体文件(MPEG-TS格式),而客户端则不断的下载并播放这些小文件, 因为服务器端总是会将最新的直播数据生成新的小文件,这样客户端只要不停的按顺序播放从服务器获取到的文件,就实现了直播。 由此可见,基本上可以认为,HLS是以点播的技术方式来实现直播。由于数据通过HTTP协议传输,所以完全不用考虑防火墙或者代理的问题, 而且分段文件的时长很短,客户端可以很快的选择和切换码率,以适应不同带宽条件下的播放。不过HLS的这种技术特点,决定了它的延迟一般总是会高于普通的流媒体直播协议。 

客户端工作以及总结

直播过程我们要做下列一系列事情。 录制音视频-->编码-->流媒体传输-->服务器--->流媒体传输到其他app-->解码-->播放

过程中主要的技术如下:

  1. 录制音视频 AudioRecord/MediaRecord
  2. 视频剪辑 mp4parser 或ffmpeg
  3. 音视频编码 aac&h264
  4. 上传大文件 网络框架,进度监听,断点续传
  5. 流媒体传输 流媒体传输协议rtmp rtsp hls
  6. 音视频解码 aac&h264
  7. 渲染播放 MediaPlayer

这里就不多赘述了。