sklearn调包侠之朴素贝叶斯本文已参与「新人创作礼」活动，一起开启掘金创作之路文档处理朴素贝叶斯算法常用于文档的

本文已参与「新人创作礼」活动，一起开启掘金创作之路

文档处理

朴素贝叶斯算法常用于文档的分类问题上，但计算机是不能直接理解文档内容的，怎么把文档内容转换为计算机可以计算的数字，这是自然语言处理（NLP）中很重要的内容。

TF-IDF方法

今天我们简单讲解TF-IDF方法，将文本数据转换为数字。TF-IDF是一个统计方法，用来评估单个单词在文档中的重要程度。 TF表示词频，对一个文档而言，词频就是词在文档出现的次数除以文档的词语总数。例如：一篇文档有1000个字，“我”字出现25次，那就是0.025；“Python”出现5次就是0.005。 IDF表示一个词的逆向文档频率指数。可以由总文档数除以包含该词出现的文档数目，然后取对数。例如：有10000个文档，“Python”只出现了10篇文章，则IDF=log(10000/10)=3；“我”字在所有文档都出现过，则IDF为0。词频和权重指数相乘，就是词在文档中的重要程度。可以看出，词语的重要性随它在文档中出现的次数呈正比例增加，但同时会随着它在语料库中出现的频率呈反比下降。

实战——文档分类

数据导入和TF-IDF

在sklearn中，通过load_files方法可以将子目录的名字转换为文档类别（target），将目录所有文档读入内存（data）。

from sklearn.datasets import load_files
news_train = load_files('data/379/train')

通过TfidfVectorizer方法，将文档数据进行转换：

from sklearn.feature_extraction.text import TfidfVectorizer

vect = TfidfVectorizer(encoding='latin-1')
X_train = vect.fit_transform(news_train.data)

模型训练

朴素贝叶斯算法使用sklearn.naive_bayes模块中的MultinomialNB方法。

from sklearn.naive_bayes import MultinomialNB
y_train = news_train.target
clf = MultinomialNB(alpha=0.0001)
clf.fit(X_train, y_train)
train_score = clf.score(X_train, y_train)

# result 
# 0.99787556904400609

模型评估

简单的，可以通过score方法来评估整个模型的精度。

news_test = load_files('data/379/test')
X_test = vect.transform(news_test.data)
y_test = news_test.target

clf.score(X_test, y_test)

# result 
# 0.90881728045325783

我们也可以通过classification_report方法来查看全方位的评价。

from sklearn.metrics import classification_report

pred = clf.predict(X_test)

print(classification_report(y_test, pred, target_names=news_test.target_names))

也可以查看我们的混淆矩阵。

from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, pred)

print(cm)