自然语言处理

141 阅读1分钟

1. 自然语言处理(NLP 让机器理解并处理人类语言)

原因:人类每天面对大量的信息需要处理,而人工处理时间成本过高,所以希望训练机器来代替人类
自然语言特点:多变,非结构化
应用:搜索自动完成  自动更正功能

具体步骤:分词,不重复提取,找词语特征(词频找关键词)

image.png

2. 词袋模型(bag of words model)

统计词频,忽略语法 结构

3. 读取文件

寻找 (数据处理 标注)读取 处理数据集
path = "文件路径"
with open(path,'r',encoding = 'utf-8') as f: //r:文件模式只读 ,w:可重写
comments = f.readlines()//每行文本作为字符串行书储存在列表中
注意:1with 2f : 3顶格

image.png

image.png