今天介绍一个python的库,其作者为思知机器人的作者,现在这个库能实现的功能主要有以下:
- 句子分词
- 字典分词,载入字典提高句子分词的效果
- 自定义分词模型
jiagu.load_userdict(['结婚','和尚'])
words = jiagu.cut('结婚的和尚未结婚的')
['结婚', '的', '和尚', '未', '结婚', '的']
text = '汉服和服装、知识图谱机器人,卷积网络'
words = jiagu.cut(text) # 深度学习分词
words2 = jiagu.seg(text) #字典分词
['汉服', '和', '服装', '、', '知识图谱', '机器人', ',', '卷积', '网络']
['汉服', '和', '服装', '、', '知识图谱', '机器人', ',', '卷', '积', '网络']
- 知识图谱关系抽取
text = '姚明1980年9月12日出生于上海市徐汇区,祖籍江苏省苏州市吴江区震泽镇,前中国职业篮球运动员,司职中锋,现任中职联公司董事长兼总经理。'
knowledge = jiagu.knowledge(text)
print(knowledge)
[['姚明', '出生日期', '1980年9月12日'], ['姚明', '出生地', '上海市徐汇区'], ['姚明', '祖籍', '江苏省苏州市吴江区震泽镇']]
这个好像还不太完善,只能识别固定的几种类型
-
关键词提取
-
文本摘要
-
新词发现
感觉上面三个自己用不到,而且开发的还不是很完善
- 情感分析
text = '开心,且快乐'
text2 = '伤心,且难过'
sentiment = jiagu.sentiment(text)
sentiment2 = jiagu.sentiment(text2)
print(sentiment)
print(sentiment2)
('positive', 0.9688205112622361)
('negative', 0.9984103317480136)
个人感觉这个挺有用的
- 文具聚类