我们有五个不可忽视的事实:
- 程序中所有的输入和输出均为 byte
- 世界上的文本需要比 256 更多的符号来表现
- 你的程序必须处理 byte 和 unicode
- byte 流中不会包含编码信息
- 指明的编码有可能是错误的
在编程中保持 Unicode 清洁的三个建议:
- Unicode 三明治:尽可能的让你程序处理的文本都为 Unicode 。
- 了解你的字符串。你应该知道你的程序中,哪些是 unicode, 哪些是 byte, 对于这些 byte 串,你应该知道,他们的编码是什么。
- 测试 Unicode 支持。使用一些奇怪的符号来测试你是否已经做到了以上几点。
如果你遵循以上建议的话,你将会写出对 Unicode 支持很好的代码。不管 Unicode 中有多么不规整的编码你的程序也不会挂掉。