jieba分词
# -*- encoding: utf-8 -*-
"""
@File : jieba_test.py
@Modify Time @Author @Version
------------ ------- --------
2026/1/27 09:35 zhangyin 1.0
# @Description:
"""
import jieba
print("=============================================================== 基础分词(精确模式,适合检索场景) "
"===============================================================")
text = "推题规则是什么"
seg_list = jieba.cut(text, cut_all=False) # cut_all=False 表示精确模式(默认)
print("精确分词结果:", "/ ".join(seg_list))
# 精确模式是最常用的模式,会将文本拆分成最精准的词语组合,无冗余。
# 用途:用于你的 RAG 检索阶段,分词后能提升关键词匹配的精准度(比如 “推题” 和 “规则” 作为独立词语,更容易与文档中的对应内容匹配)。
print("=============================================================== 全模式分词(适合关键词挖掘) "
"===============================================================")
text = "苹果2025春季发布会将于3月15日举行"
seg_list = jieba.cut(text, cut_all=True)
print("全模式分词结果:", "/ ".join(seg_list))
# 全模式会找出文本中所有可能的词语组合,适合挖掘潜在关键词(但会有冗余)。
# 用途:用于文档的关键词提取,比如从企业微信 / Confluence 文档中挖掘核心主题(如 “发布会”“3 月 15 日”)。
print("=============================================================== 关键词提取(TF-IDF 算法,适合 RAG 文档摘要) "
"===============================================================")
import jieba.analyse
text = "推题规则如下:1. 在天练习题库中搜索与当前知识点相关且用户没有做过或没有做对过的题目。2. 每次推送7道题,若符合条件的题目少于7道,则按实际数量推送。"
# 基于 TF-IDF 提取关键词(topK=5 表示提取前5个核心关键词)
keywords = jieba.analyse.extract_tags(text, topK=5, withWeight=True) # withWeight=True 显示权重
print("关键词提取结果(关键词/权重):")
for word, weight in keywords:
print(f"{word}: {weight:.4f}")
# 直接从文本中提取核心关键词,无需手动筛选,适合给文档生成 “标签”,辅助 RAG 检索。
# 用途:用于你的 RAG 文档增强(Document Augmentation),给每个文档 / Chunk 自动生成关键词标签,存入元数据(Metadata),后续检索时可通过关键词过滤,提升精准度。
结果
=============================================================== 基础分词(精确模式,适合检索场景) ===============================================================
精确分词结果: 推题/ 规则/ 是/ 什么
=============================================================== 全模式分词(适合关键词挖掘) ===============================================================
全模式分词结果: 苹果/ 2025/ 春季/ 发布/ 发布会/ 将/ 于/ 3/ 月/ 15/ 日/ 举行
=============================================================== 关键词提取(TF-IDF 算法,适合 RAG 文档摘要) ===============================================================
关键词提取结果(关键词/权重):
推送: 0.9677
题目: 0.7229
知识点: 0.5441
推题: 0.5198
练习题: 0.5198