音频Audio

326 阅读7分钟

一、声音信号的基本特点

  • 声音是通过一定介质传播的一种连续波–正弦波

  • 声波的重要指标:

    • 振幅–音量的大小
    • 周期–重复出现的时间间隔
    • 频率–指信号每秒钟变化的次数
  • 声音按频率分类:

    • 次声波<20Hz
    • 20Hz<可听声波<20kHz
    • 超声波>20kHz
  • 人类说话声音频率范围:300Hz~3kHz

二、音频信号的数字处理

  • 声音信号的类型:

    • 模拟信号(自然界,物理)

      • 模拟音频信号的特点

        •  模拟信号具有直观、形象的特点
        •  是在时间轴上连续的信号,可以用它的某些参数去模拟其数值的大小
        •  模拟信号精度低,表示的范围小,且容易受到干扰
    • 数字信号(计算机)

      • 数字信号的特点

        • 数字信号具有较强的抗干扰能力,数字信号的波形简单,物理上容易实现,便于存储、延迟和变换。

        • 代表信息的物理量以一系列数据组的形式来表示,它在时间轴上是不连续的

        •  数字信号只有两种状态,即 0 或 1 ,这样单个信号本身的可靠性大为改善,而多个信号的组合数又几乎不受限制

        • 数字信号受干扰易修复,并且经过处理、变换或传输后干扰杂波不会积累

  • 音频信号的转换过程

    • A/D变换:模拟信号变换成数字信号
    • D/A变换:数字信号变换成模拟信号
  • 声音数字化过程

    • 模拟信号------->采样------->量化------->编码-----→数字信号

    • 采样:

      • 以恒定的频率在时间轴上对模拟信号离散的进行取样
      • 直观形象
      • 模拟信号精度低,表示的范围小,且容易受到干扰
    • 量化

      • 把取样保持处理后的信号变为有限个在幅度上离散的二进制信号的过程  
    • 编码

      • 对量化的每个值点的数值进行二进制编码的过程
    • 量化噪音

      • 在量化时忽略的信号实际值与量化值之间存在偏差,是由量化编码的位数决定,它也决定了量化的精度
      • 量化级差越小,就越能对信号进行精确的还原、转换
      • 16位量化(2 16 次方 =65536 级宽度 )一般可以达到消除量化噪声的要求
  • 声音数字化三要素

    • 采样频率

      • 每秒钟抽取声波幅度样本的次数
      • 采样频率越高,声音质量越好,数据量也越大
    • 量化位数

      • 每个采样点用多少二进制位表示数据范围
      • 量化位数越多,音质越好,数据量也越大
      • 8位=256  个值,16位=65536个值
    • 声道数

      • 使用声音通道的个数
      • 立体声比单声道的表现力丰富,但数据量翻倍
      • 单声道,立体声
  • 声音数字化计算公式

    • 数据量=采样频率量化位数声道数/8  (单位:字节/秒)

三、音频文件的常见格式

  • WAV文件

    • WAV是Microsoft/IBM共同开发的PC波形文件。因未经压缩,文件数据量很大
    • 特点:声音层次丰富,还原音质好
  • MP3文件

    • MP3(MPEG Audio layer 3)是一种按MPEG标准的音频压缩技术制作的音频文件
    • 特点:高压缩比(11:1),优美音质。音质还原较好
  • WMA文件

    • WMA(Windows Media Audio)是Windows Media格式中的一个子集(音频格式)
    • 特点:压缩到MP3一半,相同的音质,与其兼容
  • MIDI文件

    • MIDI(Musical Instrument Digital Interface 乐器数字接口的国际标准)是由一组声音或乐器符号的集合。(非数字化声音  非波形文件)

    • 特点:数据量很小,缺乏重现自然音。(依赖硬件)

四、数字音频的压缩标准

  • 音频信号是多媒体系统的重要组成部分

    • 电话质量的语音

      • 频率范围:300HZ~3.4kHz
    • 调幅广播质量的音频信号

      • 频率范围:50HZ~7KHz
    • 调频广播质量的音频信号

      • 频率范围:20HZ~15KHz
    • 高保真立体声信号

      • 频率范围:10HZ~20KHz
  • 在多媒体音频处理中,一般需要对数字化后的音频信号进行压缩编码,使其成为具有一定字长的二进制数字序列,并以这种形式在计算机内传输和存储,最后由解码器将二进制编码恢复成原来的音频信号播放。

  • 音频压缩处理过程

    • 输入音频信号--------->编码器-------→传输/存储--------->解码器-------→输出音频信号

    • 所谓压缩编码技术:就是指用某种方法使数字化信息的编码率降低的技术

    • 音频信号能进行压缩编码的基本依据有两个:

      • 声音信号中存在很大的冗余度,通过识别和去除这些冗余度,便能达到压缩编码率的目的
      • 人的听觉具有一个强音能抑制一个同时存在的弱音的现象,这样就可以抑制与信号同时存在的量化噪声
  • 音频压缩编码的基本方法

    • 无损压缩法

      • 包括不引入任何数据失真的各种熵编码
    • 有损压缩法

      • 分为波形编码模型(参数)编码和同时利用这两种技术的混合编码方法
    • 参考

      • ![]( "卢松沛 > 音频 > image2023-2-10_11-32-6.png")
  • 电话质量的音频压缩标准

    • 标准G.711

      • 采用PCM编码(脉冲编码调制),采样频率8kHz,量化位数8位,因此速率为64 Kb/s
    • 标准G.721

      • 将64 Kb/s的比特流转换成32 Kb/s,基于ADPCM
    • 标准G.723

      • 一种以24Kb/s运行的和基于ADPCM的有损压缩标准
    • 标准G.728

      • 采用LD-CELP压缩技术,比特率为16Kb/s,带宽限于3.4kHz

五、音频接口及声卡

  • 音频卡的工作原理

    • 处理音频信号的 PC插卡是音频卡(Audio Card),又称声音卡
    • 声音卡处理的音频媒体有数字化声音(Wave)、合成音乐(MIDI)、CD音频
  • 音频卡的功能和分类

    • 音频的录制与播放、编辑与合成、MIDI接口、文-语转换、CD-ROM接口及游戏接口等
  • 音频卡的体系结构,由下列部件组成

    • MIDI输入/输出电路,MIDI合成器芯片,用来把CD音频输入与线输入相混合电路,带有脉冲编码调制电路的模数转换器,
    • 用于把模拟信号转换为数字信号以生成波形文件
    • 用来压缩和解压音频文件的压缩芯片
    • 用来合成语音输出的语音合成器
    • 用来识别语音输入的语音识别电路
    • 输出立体声的音频输出或线输出的输出电路
  • 数字化声音处理

    • 声音卡用数字信号处理器DSP 芯片管理所有声音输入输出和MIDI操作

    • 整个数字音频信息获取技术的工作原理、流程与主要组成部分:

      • 混音器

        • 音频卡上的混音器(Mixer)芯片可以对以下音频源进行混合:

          • 数字化声音(DAC)
          • 调频 FM合成音乐(FM)
          • CD-Audio音频(CD-ROM)
          • 线路输入(AUX)
          • 话筒输入(MIC)
          • PC扬声输出(SPK)
          • 多声源混音
      • 合成器

        • 标准的多媒体 PC机平台通过内部合成器(Synthesize)或通过外接到计算机MIDI端口的外部合成器播放MIDI文件

        • MIDI合成器的类型目前有两种

          • 频率调制FM合成(中级仅要求掌握该种合成器原理)
          • 波形表(Wave Table)合成