用Python从Unicode转换到中文并输出到文件

3,112 阅读1分钟

最近用fiddler抓包, 其中有一些接口返回了中文的数据, 在fiddler中显示的很正常

如:

{
    "data": "这是中文"
}

但是! 我把这个json用fiddler的导出功能保存了之后, 就变成了这样:

{
    "data": "\u8fd9\u662f\u4e2d\u6587"
}

我擦, 不带这么玩的吧?

那我在console中print出来也是这样吗?

with open('../temp/9_.json', 'r') as f:
    s = json.load(f)  #读取json

q = s['data']

print(q)
# > 这是中文

很明显, 我用Python3 读取了这个json文件并且print出来, 在console中的输出是实实在在的中文.

那我写入文件能是中文吗?

with open('../temp/test.txt', 'w') as f:
    f.write(q)
    
# "data": "\u8fd9\u662f\u4e2d\u6587"

还是不行, 写入文件还是变成了Unicode

网上冲浪了一番, 发现这个json文件是"以UTF-8的编码输出英文, 而非英文等特殊字符就被以Unicode的形式输出了."

按理说Python3已经使用Unicode来处理string了, 网上的那些Python2的decode这里是不需要的.

那么问题自然就出在输出的时候编码有问题.

可是s.encode('utf8')之后就变成了bytes

当时无知的我并不知道open()里面还可以附加变量b, 表明以"二进制写入". 虽然依然不是很明白是为什么, 加b之后就可以顺利输出中文到文件里了

with open('../temp/test.txt', 'wb') as f:
    f.write(q)
    
# "data": "这是中文"