一句话读懂信息论,以及它在蓝牙、Wi-Fi、USB 中的样子
你有没有想过:为什么你每天刷的抖音、听的网易云、扫的 NFC 门禁,背后的本质都是同一件事——信息的传递?
而信息论的开创者克劳德·香农,早在 1948 年就用一个简单的公式,揭示了信息的本质。
一、信息 = 消除不确定性
在日常生活中,“信息”这个词很模糊。但在信息论里,它有一个精确的定义:
信息是用于消除不确定性的东西。 信息量的大小,等于被消除掉的不确定性的多少。
举个例子:
- 有人告诉你“太阳明天还会从东边升起”——你早就知道,这句话的信息量为 0。
- 有人告诉你“明天市区要下陨石雨”——这件事概率极低,它极大地改变了你的认知,所以信息量巨大。
信息论不关心内容重不重要,只关心这件事有多“出乎意料”。
香农用一个公式来量化一个事件的信息量:
I(x) = -log₂(P(x))
其中 P(x) 是事件发生的概率。概率越低,信息量越大;必然事件的信息量为 0。
比如抛一枚均匀的硬币,正面概率 1/2,信息量就是 -log₂(1/2) = 1 比特。 恰好用一个二进制位(0/1)就能表示。
二、熵:信源的平均信息量
单次事件的信息量叫“自信息量”,但我们更关心的是:这个信源(比如一个人说话、一个传感器)平均每次发出多少信息?
这就是熵,它是自信息量的数学期望:
H(X) = Σ P(x_i) × I(x_i) = - Σ P(x_i) log₂ P(x_i)
熵是无损压缩的理论极限。 无论你用 ZIP、哈夫曼编码还是任何压缩算法,平均每个符号需要的比特数都不可能低于熵。
信源编码(如 MP3、JPEG)的工作,就是拼命逼近这个极限。
三、冗余的两张面孔:信源冗余 vs 信道冗余
有意思的是,通信系统中的“冗余”有两个完全相反的来源,我们对它们的态度也截然不同。
1. 信源冗余(我们想去除的)
真实信源不是完美的随机数发生器,它们内部有统计上的不均匀性。
- 英文里字母 E 出现的频率远高于 Z。
- 中文里,“们”出现在“我”或“同学”后面的概率极高。
这种“可预测性”就是冗余。 信源编码(ZIP、MP3)的目标就是去除这部分冗余,提高效率。
2. 信道冗余(我们主动添加的)
为了对抗传输过程中的噪声,我们需要主动添加冗余——这就是信道冗余。 比如蓝牙里用的 1/3 率 FEC(前向纠错),就是把 1 变成 111。 即使噪声把 111 变成了 011,接收端根据“多数投票”仍然能推断出原始信息是 1。
信道编码的目标就是恰到好处地增加冗余,以对抗噪声,提升可靠性。
3. 一个经典权衡
信源编码和信道编码对冗余的态度正好相反:
- 信源编码:剔除自然冗余 → 换取效率
- 信道编码:添加受控冗余 → 换取可靠性
一个优秀的通信系统,本质上就是在效率和可靠性之间寻找最佳的平衡点。
四、从理论到协议:蓝牙、Wi-Fi、USB 中的信息论
我们来看几个你天天打交道的协议,它们是如何应用这些理论的。
蓝牙:跳频 + FEC + 压缩
- 物理信道:跳频扩频(FHSS),每秒跳 1600 次,像兔子一样躲避干扰。
- 信源编码:蓝牙音频会把声音分解成不同频带,根据每个频带的信息量动态分配比特数——和“根据概率分配码长”如出一辙。
- 信道编码:1/3 率 FEC 用 2/3 的速率开销换来纠错能力;蓝牙 5.0 的 Coded PHY 把速率从 1Mbps 降到 125kbps,传输距离却能增加 2-4 倍。
- 协议效率:一个典型 BLE 数据包,用户有效数据占比约 94.7%,剩下的是必要的“管理费”。
NFC:依赖信道,简化编码
- 物理信道:电感耦合,距离仅几厘米,信道本身就很可靠。
- 信源编码:数据量小(URL、支付指令),重点是标准化(NDEF 格式),不是压缩。
- 信道编码:只用简单的 CRC 检错,错了就失败,不修复。
- 协议效率:约 85% 左右,用物理层的可靠性换取了协议层的极简。
Wi‑Fi:逼近香农极限
- 物理信道:OFDM + MIMO,从 20MHz 绑到 320MHz,用多天线并行传输。
- 信源编码:自适应调制编码(AMC)——信号好时用 1024-QAM(每个符号 10 比特),信号差时换 BPSK(每个符号 1 比特)。
- 信道编码:LDPC、卷积码、ARQ 重传,层层保障。
- 协议效率:IPv4 over Wi-Fi 约 96.1%,只有不到 4% 的开销。
USB:有线高速的可靠性
- 物理信道:差分信号,抗干扰。用 NRZI 编码 + 位填充保证时钟同步。
- 信源编码:通过端点-管道模型,区分控制、批量、中断、同步四种传输类型。
- 信道编码:CRC 校验、DATA0/DATA1 交替发送(简化版 ARQ)。
- 协议效率:全速 USB 批量传输约 83%,并为实时传输预留高达 90% 的带宽。
CAN:面向数据的优先级编码
- 物理信道:差分双绞线,显性(0)和隐性(1)具有“线与”特性。
- 信源编码:没有地址,报文 ID 代表内容本身(比如“发动机转速”),ID 数值越小优先级越高。
- 信道编码:非破坏性位仲裁——多个节点同时发时,逐位比较 ID,谁发隐性位却听到显性位,谁就退出。高优先级报文零延迟。
- 协议效率:约 50-55%。用一半带宽换取了强实时性和确定性。
五、一张表看懂各协议的信息论特征
| 协议 | 核心目标 | 物理层特点 | 信源编码 | 信道编码 | 效率 |
|---|---|---|---|---|---|
| 蓝牙 | 短距无线音频/数据 | 跳频 (FHSS) | 音频压缩 | FEC、ARQ | 94.7% |
| NFC | 极近场交互/支付 | 电感耦合 | NDEF 封装 | CRC 检错 | 54-85% |
| Zigbee | 物联网传感/控制 | DSSS 扩频 | 极简封装 | CSMA-CA、ARQ | 51-76% |
| Wi-Fi | 高吞吐量、多用户 | OFDM、MIMO | AMC 自适应 | LDPC、ARQ | 94-97% |
| USB | 有线外设连接 | 差分信号 | 端点-管道 | CRC、数据切换 | 66-83% |
| CAN | 车载实时控制 | 差分双绞线 | 面向数据 ID 编码 | 位仲裁、CRC | 50-55% |
六、几点核心结论
- 通信系统的本质是效率与可靠性的权衡 MIPI 追求效率极致(99.4%),CAN 用 50% 开销换取确定性,Wi-Fi 在两者间用复杂技术逼近香农极限。
- 冗余具有双重性,在不同层次发挥作用 物理层冗余(位填充、扩频)保证同步;链路层冗余(CRC、ARQ)保证可靠传输;网络层冗余(Mesh 泛洪)保证连通性。
- “根据概率分配资源”是贯穿始终的思想 蓝牙音频根据频率重要性分配比特数,CAN 根据 ID 分配优先级,Wi-Fi 根据信道质量自适应调制——都是信源编码核心思想的推广。
- 香农信息论的三大概念——信源编码、信道容量、信道编码——在现代协议中得到了完美实践 每种协议都在:去除自然冗余提高效率,添加受控冗余保证可靠性,通过各种技术逼近或利用信道容量。
七、写在最后
我们从香农的公式出发,理解了信息量、熵、冗余的双重角色,然后看到了蓝牙、NFC、Wi-Fi、USB、CAN 是如何在不同约束下应用这些理论的。
理论是通用的,落地是具体的;原理是简单的,工程是复杂的。
下次你拿起手机“碰一碰”支付,或者听着蓝牙耳机跑步时,也许会想起:这一切的背后,都是香农那个简单的对数公式,以及无数工程师在效率与可靠性之间做出的权衡。
书稿《权衡之境》已完稿,正在出版流程中。 关注公众号 「权衡之境」,第一时间获取新书信息和更多技术哲学文章。
——高翔,嵌入式工程师,《权衡之境》作者