首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
文本挖掘
订阅
风在掘金53957
更多收藏集
微信扫码分享
微信
新浪微博
QQ
16篇文章 · 0订阅
如何用Python和机器学习训练中文文本情感分类模型?
利用Python机器学习框架scikit-learn,我们自己做一个分类模型,对中文评论信息做情感分析。其中还会介绍中文停用词的处理方法。 前些日子,我在微信后台收到了一则读者的留言。 我一下子有些懵——这怎么还带点播了呢? 但是旋即我醒悟过来,好像是我自己之前挖了个坑。 …
使用 Python 定制词云
本实验将使用 Python 的 wordcloud 扩展包制作词云,生成图片保存。并介绍如何改进 wordcloud 扩展包使其能显示中文字符,最后介绍如何使用自己喜欢的图片定制词云图片轮廓。
Python中文分词 jieba 十五分钟入门与进阶
整体介绍jieba基于Python的中文分词工具,安装使用非常方便,直接pip即可,2/3都可以,功能强悍,博主十分推荐github:https://github.com/fxsjy/jieba开源中
推荐系统技术之文本相似性计算(二)
第一篇地址:[http://gold.xitu.io/post/577db540128fe100564fc887) 上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。 首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还…
推荐系统技术之文本相似性计算(一)
1. 前言 推荐系统分为两种,一种是基于用户的,根据某个用户的特性推荐一些东西,还有一种是根据内容,推荐一些相似的内容,或者是两种的结合,任何推荐系统,仔细分析下来,都属于这两种情况的组合。 今天我们说一下基于内容推荐中的一个分支,也是使用得比较多的内容推荐方式,那就是基于文本…
【火炉炼AI】机器学习037-NLP文本分块
文本分块是将一大段文本分割成几段小文本,其目的是比如想获取一段文本中的一小部分,或分割得到固定单词数目的小部分等,经常用于非常大的文本。注意文本分块和分词不一样,分词的目的是把一段文本分割成单词,而文本分块的目的是把一大段文本分割成多个小段文本。 1. NLP文本分块 在不用的…
如何用机器学习对文本分类
需求 使用监督学习对历史数据训练生成模型,用于预测文本的类别。 样本清洗 主要将重复的数据删除掉,将错误无效的数据纠正或删除,并检查数据的一致性等。比如我认为长度小于少于 13 的数据是无效的遂将之删掉。 def writeFile(text): file_object = ope…
【火炉炼AI】机器学习039-NLP文本分类器
前面我们学习了很多用NLP进行文本的分词,文本分块,创建词袋模型等,这些步骤可以认为是NLP文本处理的基础,此处我们来看NLP的一个非常重要的应用,对文本使用监督学习进行自动分类。 1. 20 Newsgroups数据集介绍 本文要使用NLP中非常经典的一个数据集:20 New…
CNN也能用于NLP任务,一文简述文本分类任务的7个模型
选自Ahmed BESBES,作者:Ahmed Besbes,机器之心编译。 本文是我之前写过的一篇基于推特数据进行情感分析的文章(https://ahmedbesbes.com/sentiment-analysis-on-twitter-using-word2vec-and-…
机器学习之贝叶斯分类(python实现)
朴素贝叶斯(Naive Bayesian)是最为广泛使用的分类方法,它以概率论为基础,是基于贝叶斯定理和特征条件独立假设的分类方法。 朴素贝叶斯(Naive Bayesian)是基于贝叶斯定理和特征条件独立假设原则的分类方法。通过给出的特征计算分类的概率,选取概率大的情况进行分…