pyquery 解析乱码的处理

446 阅读1分钟

事情是这样的

我的后端需要传一个富文本,但是呢数据库保存一个富文本太长了。我就把富文本写到一个html文件里然后数据库保存一个html文件的path。然后去读取这个文件的时候就要用到pyquery了,然后发现读出来的是乱码。查了一下网上的,都是些加上编码效果什么UTF-8之类的发现都解决不了。

偶然的发现

我通过pycharm打开这个html也是乱码,通过vscode打开就是正常的。

那这是为什么呢,我思考了一下,大概就是vscode对这个html文件做了一些奇怪的事情

这下面是两张图⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️⬇️

这上面是两张图⬆️⬆️⬆️⬆️⬆️⬆️⬆️⬆️⬆️⬆️

最后结论

从这个url看来,是我错了是pycharm对这个html做了些什么,我在看看这两个富文本,他是只有body内容的html文件,头什么的都没有。我给文件加上

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Document</title>
</head>

然后再用pyquery读body的内容,问题解决