基础知识 - 音频处理相关1. 音频处理流程如上图,音频从共享端经过采集、编码压缩传输到观看端进行解码、渲染完成整

如上图,音频从共享端经过采集、编码压缩传输到观看端进行解码、渲染完成整个流程.

其中iOS端采集, 可以使用AVFoundation框架, 也可以使用更底层的AudioUnit.

编码压缩包括有损编码和无损编码.

使用以下两张流程图来进一步说明每一个阶段

注: Hz - 赫兹, 一秒内振动次数(20Hz : 一秒内振动20次)

声音三要素: 音调、音量、音色.

音调: 音频的快慢(尖锐/低沉)

音量: 振动的幅度

音色: 谐波

PCM : 音频的纯原始数据, 没有任何格式 .

WAV : 多媒体文件格式, 可以存储PCM原始数据, 也可以存储压缩数据, 但大多数情况下是存储原始数据, 即在PCM原始数据上套一个存储着一些参数(采样大小、采样率、声道数)的header, 以便于播放器正确的播放音频数据.

采样大小(位深) : 一个采样用多大的bit存放, 8位或者16位位深, 常用的是16bit(2个字节). 位深越高描述的峰值越大, 峰值越大, 声音波形的强度描述的更清楚.

采样率: 采样频率8k、16k、32k、44.1k、48k, 采样率越高, 数字信号越接近模拟信号(越保真), 否则一些敏感的信息可能被忽略掉, 电话的采样率一般是8k.

声道数: 单声道、双声道、多声道.

PCM音频流码率计算方式: 采样率 * 采样大小 * 声道数

例如: 一个采样率44.1KHz, 采样大小16bit, 双声道的PCM编码的WAV文件,

它的码率为: 44.1k * 16 * 2 = 1411.2 Kb/s