问题:python中利用neo4j构建知识图谱时,为了提高效率使用python的多线程时,其中一个步骤是利用结巴词典自定义词典进行精确的分词,但是使用jieba.load_userdict("")加载字典时,如果字典的数量较大,加载字典的时长会过长,导致程序运行出现错误。
解决方法:将自定义词典设置成jieba词库的内置词典,找到jieba库下面的dict.txt,将自定义词典加入到dict字典中。具体步骤如下: 1.找到默认的结巴词库,将默认词库模型加载到本机缓存,之后每次都从本地缓存中去加载默认词库,缓存文件为 jieba.cache。 2.将自己的自定义词典加入dict.txt中,第一列:词;第二列:词频;第三列:词性。如果不知怎么设置词频、词性,可以将其设置成3和n。 3.保存之后,找到之前缓存文件jieba.cache并删除,路径C:\Users\20655\AppData\Local\Temp\jieba.cache。重新生成缓存文件,注意:每次需要更新内置词典,都需要重新生成缓存文件jieba.cache。
说明:通过对比之后,将自定义词典设置成默认的jieba词典,比从外部导入词典会效率会大大的提高。