人类能够听到的所有声音都称之为音频,无论是说话声、歌声、乐器,它可能包括噪音等。在生活中又两大场景:语音(Voice)和音乐(Music),近几年各大厂都推出了智能音响,包括笔者自己家里使用的天猫精灵。以及在各种短视频、游戏等,也都涉及大量的音频技术。
音频的基础主要包括如下:
采样/采样频率
采样频率就是采用一段音频,做为样本,因为wav使用的是数码信号,它是用一堆数字来描述原来的模拟信号,所以它要对原来的模拟信号进行分析,我们知道所有的声音都有其波形,数码信号就是在原有的模拟信号波形上每隔一段时间进行一次“取点”,赋予每一个点以一个数值,这就是“采样”,然后把所有的“点”连起来就可以描述模拟信号了,很明显,在一定时间内取的点越多,描述出来的波形就越精确,这个尺度我们就称为“采样频率”。我们最常用的采样频率是44.1kHz,它的意思是每秒取样44100次。之所以使用这个数值是因为经过了反复实验(实际上是那个时代才是视频27/1.0001时钟做CD刻录遗留问题),人们发现这个采样频率最合适,低于这个值就会有较明显的损失,而高于这个值人的耳朵已经很难分辨,而且增大了数字音频所占用的空间。一般为了达到“万分精确”,我们还会使用48kHz甚至96kHz的采样频率,实际上,96kHz采样频率和44.1kHz采样频率的区别绝对不会象44.1kHz和22kHz那样区别如此之大。
比特率(采样位数)
数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”?我们知道声音有轻有响,影响声音响度的物理要素是振幅,作为数码录音,必须也要能精确表示乐曲的轻响,所以一定要对波形的振幅有一个精确的描述。“比特(bit)”就是这样一个单位,16比特就是指把波形的振幅划为2^16即65536个等级,根据模拟信号的轻响把它划分到某个等级中去,就可以用数字来表示了。和采样频率一样,比特率越高,越能细致地反映乐曲的轻响变化。20比特就可以产生1048576个等级,表现交响乐这类动态十分大的音乐已经没有什么问题了。刚才提到了一个名词“动态”,它其实指的是一首乐曲最响和最轻的对比能达到多少,我们也常说“动态范围”,单位是dB,而动态范围和我们录音时采用的比特率是紧密结合在一起的,如果我们使用了一个很低的比特率,那么就只有很少的等级可以用来描述音响的强弱,当然就不能听到大幅度的强弱对比了。动态范围和比特率的关系是;比特率每增加1比特,动态范围就增加6dB。所以假如我们使用1比特录音,那么我们的动态范围就只有6dB,这样的音乐是不可能听的。16比特时,动态范围是96dB。这可以满足一般的需求了。20比特时,动态范围是120dB,对比再强烈的交响乐都可以应付自如了,表现音乐的强弱是绰绰有余了。发烧级的录音师还使用24比特,但是和采样精度一样,它不会比20比特有很明显的变化,理论上24比特可以做到144 dB的动态范围,但实际上是很难达到的,因为任何设备都不可避免会产生噪音,至少在现阶段24比特很难达到其预期效果。
声道
声卡所支持的声道数是衡量声卡档次的重要指标之一,从单声道到最新的环绕立体声。环绕立体声可以获得身临各种不同环境的听觉感受,给用户以全新的体验。
编解码
自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。把采样值压缩叫编码(encode),形成比特流(bitstream). 把比特流还原出采样值叫解码(decode),统称编解码(codec)。
- 无损压缩和有损压缩
根据采样率和采样大小可以得知,相对自然界的信号,音频编码最多只能做到无限接近,至少目前的技术只能这样了,相对自然界的信号,任何数字音频编码方案都是有损的,因为无法完全还原。在计算机应用中,能够达到最高保真水平的就是PCM编码,被广泛用于素材保存及音乐欣赏,CD、DVD以及我们常见的WAV文件中均有应用。因此,PCM约定俗成了无损编码,因为PCM代表了数字音频中最佳的保真水准,并不意味着PCM就能够确保信号绝对保真,PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴,是相对PCM编码的。强调编码的相对性的有损和无损,是为了告诉大家,要做到真正的无损是困难的,就像用数字去表达圆周率,不管精度多高,也只是无限接近,而不是真正等于圆周率的值。
- 为什么要使用音频压缩技术
要算一个PCM音频流的码率是一件很轻松的事情,采样率值×采样大小值×声道数 bps。以一个采样率为44.1KHz,采样大小为16bit,双声道的PCM编码的WAV文件,它的数据存储空间需要176.4KB(44100 * 16 * 2 / 8 / 1024),那么1分钟则约为10.34M,这是无法接受的。因此要降低存储空间,也要有品质追求,那么就有了很多的音频压缩技术。
音频压缩技术
前面说过,在音频压缩领域,有两种压缩方式,分别是有损压缩和无损压缩,有损压缩顾名思义就是降低音频采样频率与比特率,输出的音频文件会比原文件小。另一种音频压缩被称为无损压缩,无损压缩能够在100%保存原文件的所有数据的前提下,将音频文件的体积压缩的更小,而将压缩后的音频文件还原后,能够实现与源文件相同的大小、相同的码率。无损压缩格式有APE、FLAC、WavPack、LPAC、WMALossless、AppleLossless、La、OptimFROG、Shorten,而常见的、主流的无损压缩格式只有APE、FLAC。
常见编码格式
- WAV 编码
PCM编码的WAV文件是音质最好的格式, 就是在 PCM 文件前面加上 44 字节,分别描述采样率、声道数、数据格式等信息。
特点:音质非常好,被大量软件所支持。
适用于:多媒体开发、保存音乐和音效素材。
- Mp3
特点:音质好,压缩比比较高,被大量软件和硬件支持,应用广泛。
适用于:适合用于比较高要求的音乐欣赏。
- OGG
特点:可以用比mp3更小的码率实现比mp3更好的音质,高中低码率下均具有良好的表现。
适用于:用更小的存储空间获得更好的音质(相对MP3)。
- MPC
特点:中高码率下,具有有损编码中最佳的音质表现,高码率下,高频表现极佳。
适用于:在节省大量空间的前提下获得最佳音质的音乐欣赏。
- mp3PRO
特点:低码率下的音质之王。
适用于:低要求下的音乐欣赏。
- WMA
特点:低码率下的音质表现难有对手。
适用于:数字电台架设、在线试听、低要求下的音乐欣赏。
- APE
一种新兴的无损音频编码,可以提供50-70%的压缩比,虽然比起有损编码来太不值得一提了,但对于追求完美音质的朋友简直是天大的福音。APE可以做到真正的无损,而不仅是听起来无损,压缩比也要比类似的无损格式要好。
特点:音质非常好。
适用于:最高品质的音乐欣赏及收藏。
资料参考: