将HTML转义字符转换成相应的符号

2,151 阅读1分钟
import html

# 将HTML转义字符转换成相应的符号
def decode_html_symbols(s):
    # 将">"转换成">"
    s = s.replace(">", ">")
    # 将"&lt;"转换成"<"
    s = s.replace("&lt;", "<")
    # 将"&nbsp;"转换成空格
    s = s.replace("&nbsp;", " ")
    # 将"&hellip;"转换成省略号
    s = s.replace("&hellip;", "…")
    # 将"&ldquo;"和"&rdquo;"转换成左右双引号
    s = s.replace("&ldquo;", "“").replace("&rdquo;", "”")
    # 将"&lsquo;"和"&rsquo;"转换成左右单引号
    s = s.replace("&lsquo;", "‘").replace("&rsquo;", "’")
    # 将"&mdash;"转换成破折号
    s = s.replace("&mdash;", "—")
    # 将"&ndash;"转换成短横线
    s = s.replace("&ndash;", "–")
    # 将"&quot;"转换成双引号
    s = s.replace("&quot;", '"')
    # 将"&apos;"转换成单引号
    s = s.replace("&apos;", "'")
    # 将"&euro;"转换成欧元符号
    s = s.replace("&euro;", "€")
    # 将"&pound;"转换成英镑符号
    s = s.replace("&pound;", "£")
    # 将"&yen;"转换成日元符号
    s = s.replace("&yen;", "¥")
    # 将"&sect;"转换成小节符号
    s = s.replace("&sect;", "§")
    # 将"&para;"转换成段落符号
    s = s.replace("&para;", "¶")
    # 将其他HTML转义字符进行转换
    s = html.unescape(s)
    return s