一、初始音频音频数据的承载方式最常用的是脉冲编码调制，即 PCM。在自然界中，声音是连续不断的，是一种模拟信号，那么

定义

音频数据的承载方式最常用的是脉冲编码调制，即 PCM。 在自然界中，声音是连续不断的，是一种模拟信号，那么如果要把声音保存下载，就需要把声音数字化，即转换为数字信号。 PCM的采集步骤为（即模拟信号转为数字信号）：

模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

即采样的频率。根据奈奎斯特采样定理：为了不失真地恢复模拟信号，采样频率应该不小于模拟信号频谱中最高频率的2倍。因此，人耳能听到的最高频率为 20kHz，所以为了满足人耳的听觉要求，采样率至少为 40kHz，通常为 44.1kHz，更高的通常为 48kHz。

涉及到了振幅量化。波形振幅在模拟信号上也是连续的样本值，而在数字信号中，信号一般是不连续的，所以模拟信号量化以后，只能取一个近似的整数值，为了记录这些振幅值，采样器会采用一个固定的位数来记录这些振幅值，通常由8位，16位，32位。

位数越多，记录的值越准确，还原度也越高。

由于数字信号是由0，1 组成的，因此，需要将幅度值转换为一系列0 和 1进行存储，也就是编码，最后得到的数据就是数字信号：一串0和1组成的数据。整个过程如下图：

声道数，是指支持能 不同发声（注意是不同声音）的音响的个数

单声道：1个声道双声道：2个声道立体声道：默认为2个声道立体声道（4声道）：4个声道

码率，是指一个数据流中每秒钟能通过的信息量，单位 bps（bit per second）码率 = 采样率 * 采样位数 * 声道数