Python自然语言处理之jieba分词

2023-05-06 129 阅读1分钟

1、函数及用法

jieba.cut 方法接受三个输入参数:

需要分词的字符串
cut_all 参数用来控制是否采用全模式
HMM 参数用来控制是否使用 HMM 模型

jieba.cut_for_search 方法接受两个参数

需要分词的字符串
是否使用 HMM 模型。

jieba.lcut以及jieba.lcut_for_search直接返回 list:

**
**

**
**

**
**

**
**

利用tf-idf来提取关键词和文本的tags：

\

\

另外，对于大量文本处理，在服务器，可以用命令行：

\