首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
NLP
订阅
簡敬軒
更多收藏集
微信扫码分享
微信
新浪微博
QQ
13篇文章 · 0订阅
kmeans实现文本聚类
需求 拿到的需求是输入n个文本,对文本进行聚类,由于这些输入不能通过历史数据进行训练,所以这个主要就是用无监督学习来解决。 kmeans 谈到聚类就会想到kmeans,它的核心思想是给定的K值和K个初始质心将样本中每个点都分到距离最近的类簇中,当所有点分配完后根据每个类簇的所有点…
如何将Python自然语言处理速度提升100倍:用spaCy/Cython加速NLP
AI前线导读:去年我们发布了基于 Python 的共指解析包之后,社区反馈非常热烈,大家开始在各式应用中使用它,有些应用场景与我们原来的对话用例非常不一样。 之后我们发现,虽然这个解析包的性能对于对话消息来说是足够的,但涉及到大篇幅新闻文章时就远远不够了。 所以我决定好好处理这…
一种海量社交短文本的热点话题发现方法
随着社交网络的发展和积累,内容的产生、传播、消费等已经根深蒂固地融入在人们的生活里。随之内容分析的工作也就走进了人们的视野。近年来,各种公众趋势分析类产品涌现,各大公司都利用自身资源纷纷抢占一席之地。 公众趋势分析平台利用自然语言处理、机器学习方法对数据进行分析,给用户提供舆情…
文本分析——分配单词权重
文本处理中很多时候会需要给每个单词分配权重,有了权重以便后续进一步处理。常用的算法主要是TF-IDF。 TF,即Term Frequency。我们可以将文档看成由若干词(term)组成,那么文档中某个term出现的频率就是TF。词频和词权重存在关系,可以用来作为词权重的衡量因素…
如何用Python和机器学习训练中文文本情感分类模型?
利用Python机器学习框架scikit-learn,我们自己做一个分类模型,对中文评论信息做情感分析。其中还会介绍中文停用词的处理方法。 前些日子,我在微信后台收到了一则读者的留言。 我一下子有些懵——这怎么还带点播了呢? 但是旋即我醒悟过来,好像是我自己之前挖了个坑。 …
【译】手把手教你在Python中实现文本分类
文本分类是商业问题中常见的自然语言处理任务,目标是自动将文本文件分到一个或多个已定义好的类别中。文本分类的一些例子如下: 分析社交媒体中的大众情感 鉴别垃圾邮件和非垃圾邮件 自动标注客户问询 将新闻文章按主题分类
干货 | 深度学习在文本分类中的应用
文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛。如: 让AI当法官: 基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签分类)。 ...... 二分类:accuracy,precision,rec…
Python 自然语言处理入门
本文从概念和实际操作量方面,从零开始,介绍在 Python 中进行自然语言处理。
我的2017年文章汇总——自然语言处理篇
近期准备把过去一年写的文章按照分类重新整理推送一遍,包括:“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”。 本篇推送nlp相关文章。 公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“N…
用 CNN 做句子分类:CNN Sentence Classification (with Theano code)
这篇文章细说 CNN 在 NLP 中的一大应用————句子分类。 并且通过 Yoon Kim 的论文介绍一个应用,分析代码,并重构代码。