音频基础

307 阅读5分钟

音频概念

模拟音频

在自然界中,声音是连续不断的,是一种模拟信号,声音的本质是波在介质中传播的现象。

声音的三要素有

  • 响度(Loudness)

    主观上感觉声音的大小,俗称音量,由振幅和距离决定,振幅越大响度越大,距离越小,响度越大

  • 音调(Pitch)

    声音的高低,由频率决定,频率越高音调越高,人耳听觉范围20~20000Hz

  • 音色(Timbre)

    不同声音表现在波形方面总是有与众不同的特性,不同的物体振动都有不同的特点

数字音频

在自然界中,由于声音是连续不断的,是一种模拟信号,那怎样才能把声音保存下来呢?那就是把声音数字化,即转换为数字信号。

把模拟信号转化为数字信号需要以下几步

  • 采样
  • 量化
  • 编码

采样

我们知道声音是一种波,有自己的振幅和频率,那么要保存声音,就要保存声音在各个时间点上的振幅。 所以采样就是在时间轴上对模拟信号进行数字化,根据奈奎斯特采样定理

为了不失真地恢复模拟信号,采样频率应该不小于模拟信号频谱中最高频率的2倍。

采样频率一般为44.1kHz,这样可保证声音达到20kHz也能被数字化。 44.1kHz就是代表会采样44100次。

image.png

数字信号并不能连续保存所有时间点的振幅,事实上,并不需要保存连续的信号,就可以还原到人耳可接受的声音。

量化

具体的每个采样的数据又该如何表示呢?这就涉及到量化了,量化是指在幅度上对信号进行数字化,如果使用16比特位的二进制来表示一个采样,那么这个采样所表示的范围就是-32768 ~ 32767

编码

每个量化都是一个采样单位,将这么多采样进行存储的过程就叫编码,所谓的编码就是按照一定的格式记录采样和量化后的数字音频,比如顺序存储或者压缩存储等等

通常音频数据的承载方式最常用的是脉冲编码调制,即PCM,描述一段PCM数据通道需要以下几个概念

  • 量化格式(位深,通常是16bit)
  • 采样率
  • 声道数

对于声音格式,还有个概念描述他的大小,即比特率,即1秒内的比特数目,用来衡量音频数据单位时间内的容量大小。

根据以上分析,PCM的采集步骤分为以下步骤:

模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

音频的相关术语

频率

声波的频率,即声音的音调,一般女生发出的音调高于男生,人类听觉的频率范围为20Hz20000Hz,人类发出的频率范围为: 85Hz1100Hz

振幅

即声波的响度,通俗的讲就是声音的高低,一般男生的声音振幅(响度)大于女生

波形

即声音的音色,同样频率和振幅下,钢琴和小提琴的声音听起来完全不同的,因为他们音色不同。波形决定了其所代表声音的音色。音色不同是因为他们的介质所产生的波形不同

采样率

概念 对声音信号每秒的采样次数,采样率越高,声音的还原越真实

单位 采样率的单位是Hz,常见的采样率有8000Hz、16000Hz、44100Hz、48000Hz

奈奎斯特抽样定理 要从抽样信号中无失真地恢复原信号,抽样频率应大于2倍信号最高频率。 抽样频率小于2倍频谱最高频率时,信号的频谱有混叠。 抽样频率大于2倍频谱最高频率时,信号的频谱无混叠

声道

概念 指声音在录制和播放时候,在不同空间位置采集或回放的相互独立音频信号

声道布局

概念 不同声道数对应不同的声道布局, 常见的如下

  • 单声道
  • 双声道(立体声道)
  • 四声环绕
  • 5.1声道

单声道 只有一个声音,优点数据量小,缺点是缺乏对声音的位置定位。amr_nb和amr_wb默认为单声道

双声道 由左右两个声道组成,相对单声道而言,改善了对声音位置的定位的状况

四声环绕 由前左、前右、后左、后右四个方向组成,形成立体环绕。

4.1声道 是在四声环绕基础上,增加一个低音

5.1声道 在4.1声道基础上。增加一个中场声道,杜比AC3就是采用5.1声道(杜比音效)

音质

音质 声音的质量,经过编码压缩后的音频保真度,由音量音色音高三要素组成

声音的音量 即音频的强度和幅度, 数值范围为0~100, 静音为0,最大值为100。

声音的音高 即声音的音调,音频的频率或者每秒的变化次数

声音的音色 音频泛音,音品,不同声音表现在波形方面与众不同的特性

封装格式

为适应不同的播放需求,为多媒体编码提供一个外壳,将所有通过算法处理过的音视频包装到一个文件容器里,音频封装格式,由特定格式头+媒体信息+音频轨数据组成。

常见的封装格式有

  • mp3
  • m4a
  • ogg
  • amr
  • wma
  • wav
  • flac
  • aac
  • ape

编码协议

压缩原始数据的体积,用来高效存储、传输编码数据,音频经过解封装得到的音频轨数据,也就是经过编码的。

常见的音频轨编码协议有:

  • mp3
  • aac
  • amr_nb
  • amr_wb
  • ac3
  • vorbis
  • opus
  • flac
  • wmav2