赫夫曼编码解析本文已参与「新人创作礼」活动,一起开启掘金创作之路。赫夫曼编码算法赫夫曼编码广泛地用于数据文件压缩。

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

赫夫曼编码

原理：

最终形成的赫夫曼树

根据赫夫曼树，给各个字符规定编码，向左的路径为0 向右的路径为1 ，编码如下

o: 1000 u: 10010 d: 100110 y: 100111 i: 101 a : 110 k: 1110 e: 1111 j: 0000 v: 0001 l: 001 [空格] : 01

"i like like like java do you like a java" 字符串对应的编码为

1010100110111101111010011011110111101001101111011110100001100001110011001111000011001111000100100100110111101111011100100001100001110

长度为： 133

原来长度是 359 , 压缩了 (359-133) / 359 = 62.9% 2) 此编码满足前缀编码, 即字符的编码都不能是其他字符编码的前缀。不会造成匹配的多义性

赫夫曼树根据排序方法不同，也可能不太一样，这样对应的赫夫曼编码也不完全一样，但是wpl 是一样的，都是最小的, 比如: 让每次生成新的二叉树总是排在权值相同的二叉树的最后一个，则生成的二叉树为

根据赫夫曼编码压缩数据的原理，需要创建 "i like like like java do you like a java" 对应的赫夫曼树