添加自定义词典
- 开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率
- 用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径
- 词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
# encoding=utf-8
import jieba
seg_list = jieba.cut("李小福是创新办主任也是云计算方面的专家") # 没有加自定义词典
print(", ".join(seg_list))
jieba.load_userdict("userdict.txt")
seg_list = jieba.cut("李小福是创新办主任也是云计算方面的专家") # 添加自定义词典后
print()
print("这是自定义后结果: ")
print(", ".join(seg_list))