信息是什么?——从香农到蓝牙

2 阅读7分钟

一句话读懂信息论,以及它在蓝牙、Wi-Fi、USB 中的样子

你有没有想过:为什么你每天刷的抖音、听的网易云、扫的 NFC 门禁,背后的本质都是同一件事——信息的传递

而信息论的开创者克劳德·香农,早在 1948 年就用一个简单的公式,揭示了信息的本质。

一、信息 = 消除不确定性

在日常生活中,“信息”这个词很模糊。但在信息论里,它有一个精确的定义:

信息是用于消除不确定性的东西。 信息量的大小,等于被消除掉的不确定性的多少。

举个例子:

  • 有人告诉你“太阳明天还会从东边升起”——你早就知道,这句话的信息量为 0
  • 有人告诉你“明天市区要下陨石雨”——这件事概率极低,它极大地改变了你的认知,所以信息量巨大

信息论不关心内容重不重要,只关心这件事有多“出乎意料”。

香农用一个公式来量化一个事件的信息量:

I(x) = -log₂(P(x))

其中 P(x) 是事件发生的概率。概率越低,信息量越大;必然事件的信息量为 0。

比如抛一枚均匀的硬币,正面概率 1/2,信息量就是 -log₂(1/2) = 1 比特。 恰好用一个二进制位(0/1)就能表示。

二、熵:信源的平均信息量

单次事件的信息量叫“自信息量”,但我们更关心的是:这个信源(比如一个人说话、一个传感器)平均每次发出多少信息?

这就是,它是自信息量的数学期望:

H(X) = Σ P(x_i) × I(x_i) = - Σ P(x_i) log₂ P(x_i)

熵是无损压缩的理论极限。 无论你用 ZIP、哈夫曼编码还是任何压缩算法,平均每个符号需要的比特数都不可能低于熵。

信源编码(如 MP3、JPEG)的工作,就是拼命逼近这个极限。

三、冗余的两张面孔:信源冗余 vs 信道冗余

有意思的是,通信系统中的“冗余”有两个完全相反的来源,我们对它们的态度也截然不同。

1. 信源冗余(我们想去除的)

真实信源不是完美的随机数发生器,它们内部有统计上的不均匀性。

  • 英文里字母 E 出现的频率远高于 Z。
  • 中文里,“们”出现在“我”或“同学”后面的概率极高。

这种“可预测性”就是冗余。 信源编码(ZIP、MP3)的目标就是去除这部分冗余,提高效率。

2. 信道冗余(我们主动添加的)

为了对抗传输过程中的噪声,我们需要主动添加冗余——这就是信道冗余。 比如蓝牙里用的 1/3 率 FEC(前向纠错),就是把 1 变成 111。 即使噪声把 111 变成了 011,接收端根据“多数投票”仍然能推断出原始信息是 1。

信道编码的目标就是恰到好处地增加冗余,以对抗噪声,提升可靠性。

3. 一个经典权衡

信源编码和信道编码对冗余的态度正好相反:

  • 信源编码:剔除自然冗余 → 换取效率
  • 信道编码:添加受控冗余 → 换取可靠性

一个优秀的通信系统,本质上就是在效率可靠性之间寻找最佳的平衡点。

四、从理论到协议:蓝牙、Wi-Fi、USB 中的信息论

我们来看几个你天天打交道的协议,它们是如何应用这些理论的。

蓝牙:跳频 + FEC + 压缩

  • 物理信道:跳频扩频(FHSS),每秒跳 1600 次,像兔子一样躲避干扰。
  • 信源编码:蓝牙音频会把声音分解成不同频带,根据每个频带的信息量动态分配比特数——和“根据概率分配码长”如出一辙。
  • 信道编码:1/3 率 FEC 用 2/3 的速率开销换来纠错能力;蓝牙 5.0 的 Coded PHY 把速率从 1Mbps 降到 125kbps,传输距离却能增加 2-4 倍。
  • 协议效率:一个典型 BLE 数据包,用户有效数据占比约 94.7%,剩下的是必要的“管理费”。

NFC:依赖信道,简化编码

  • 物理信道:电感耦合,距离仅几厘米,信道本身就很可靠。
  • 信源编码:数据量小(URL、支付指令),重点是标准化(NDEF 格式),不是压缩。
  • 信道编码:只用简单的 CRC 检错,错了就失败,不修复。
  • 协议效率:约 85% 左右,用物理层的可靠性换取了协议层的极简。

Wi‑Fi:逼近香农极限

  • 物理信道:OFDM + MIMO,从 20MHz 绑到 320MHz,用多天线并行传输。
  • 信源编码:自适应调制编码(AMC)——信号好时用 1024-QAM(每个符号 10 比特),信号差时换 BPSK(每个符号 1 比特)。
  • 信道编码:LDPC、卷积码、ARQ 重传,层层保障。
  • 协议效率:IPv4 over Wi-Fi 约 96.1%,只有不到 4% 的开销。

USB:有线高速的可靠性

  • 物理信道:差分信号,抗干扰。用 NRZI 编码 + 位填充保证时钟同步。
  • 信源编码:通过端点-管道模型,区分控制、批量、中断、同步四种传输类型。
  • 信道编码:CRC 校验、DATA0/DATA1 交替发送(简化版 ARQ)。
  • 协议效率:全速 USB 批量传输约 83%,并为实时传输预留高达 90% 的带宽。

CAN:面向数据的优先级编码

  • 物理信道:差分双绞线,显性(0)和隐性(1)具有“线与”特性。
  • 信源编码没有地址,报文 ID 代表内容本身(比如“发动机转速”),ID 数值越小优先级越高。
  • 信道编码:非破坏性位仲裁——多个节点同时发时,逐位比较 ID,谁发隐性位却听到显性位,谁就退出。高优先级报文零延迟。
  • 协议效率:约 50-55%。用一半带宽换取了强实时性和确定性。

五、一张表看懂各协议的信息论特征

协议核心目标物理层特点信源编码信道编码效率
蓝牙短距无线音频/数据跳频 (FHSS)音频压缩FEC、ARQ94.7%
NFC极近场交互/支付电感耦合NDEF 封装CRC 检错54-85%
Zigbee物联网传感/控制DSSS 扩频极简封装CSMA-CA、ARQ51-76%
Wi-Fi高吞吐量、多用户OFDM、MIMOAMC 自适应LDPC、ARQ94-97%
USB有线外设连接差分信号端点-管道CRC、数据切换66-83%
CAN车载实时控制差分双绞线面向数据 ID 编码位仲裁、CRC50-55%

六、几点核心结论

  1. 通信系统的本质是效率与可靠性的权衡 MIPI 追求效率极致(99.4%),CAN 用 50% 开销换取确定性,Wi-Fi 在两者间用复杂技术逼近香农极限。
  2. 冗余具有双重性,在不同层次发挥作用 物理层冗余(位填充、扩频)保证同步;链路层冗余(CRC、ARQ)保证可靠传输;网络层冗余(Mesh 泛洪)保证连通性。
  3. “根据概率分配资源”是贯穿始终的思想 蓝牙音频根据频率重要性分配比特数,CAN 根据 ID 分配优先级,Wi-Fi 根据信道质量自适应调制——都是信源编码核心思想的推广。
  4. 香农信息论的三大概念——信源编码、信道容量、信道编码——在现代协议中得到了完美实践 每种协议都在:去除自然冗余提高效率,添加受控冗余保证可靠性,通过各种技术逼近或利用信道容量。

七、写在最后

我们从香农的公式出发,理解了信息量、熵、冗余的双重角色,然后看到了蓝牙、NFC、Wi-Fi、USB、CAN 是如何在不同约束下应用这些理论的。

理论是通用的,落地是具体的;原理是简单的,工程是复杂的。

下次你拿起手机“碰一碰”支付,或者听着蓝牙耳机跑步时,也许会想起:这一切的背后,都是香农那个简单的对数公式,以及无数工程师在效率与可靠性之间做出的权衡。

书稿《权衡之境》已完稿,正在出版流程中。 关注公众号 「权衡之境」,第一时间获取新书信息和更多技术哲学文章。

——高翔,嵌入式工程师,《权衡之境》作者