音视频处理流程
直播客户端分为共享端和观看端。共享端包括音视频采集和音视频编码两个部分,由于音视频采集后的数据量较大,所以需要通过音视频编码来将采集后的数据转换成小份数据,便于传输。
音频数据流
采集自然界的模拟信号,转换成PCM数字信号。然后对PCM进行压缩,得到acc/mp3文件。最后套一层马甲得到对应的多媒体文件mp4/flv,多媒体文件就是便于一眼看出这个文件是音频还是视频。
声音
声音三要素
mindmap
声音三要素
音量
音调
音色
音量,就是振幅
音调,就是频率
音色,反映波的叠加
自然界的声音如图所示,由绿色的基频/主频率经过黄和蓝色的微调形成。我们称微调部分,即蓝色+黄色为谐波,正是谐波的不同导致音色不同
模数转换
将自然界的模拟信号转换为数字信号
对声音进行量化
将量化结果二进制化,利于计算机识别,这里就是完成了从模拟信号到数字信号的转换
音频原始数据
音频原始数据格式
就是你拿什么格式来直接存采样的数据
- PCM
- WAV
量化
- 采样大小:一个采样用多少bit存放,常用16bit。就是振幅大小的存放
- 采样率:采样频率(单位HZ),采样频率越高,量化后的声音曲线与实际声音曲线越接近,8k、16k、32k、44.1k、48k。就是声音还原程度
- 声道数:单声道,双声道,多声道。就是几个喇叭,几个麦克风,或者说是几个采样设备
码率计算
码率(bitrates) = 单位时间的数据量 = 采样率 * 采样大小 * 声道数