首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
科技老丁哥
掘友等级
人工智能 算法攻城狮
大数据,人工智能,数据挖掘,机器学习,算法开发,架构师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
68
文章 68
沸点 0
赞
68
返回
|
搜索文章
赞
文章( 68 )
沸点( 0 )
【火炉炼AI】机器学习039-NLP文本分类器
前面我们学习了很多用NLP进行文本的分词,文本分块,创建词袋模型等,这些步骤可以认为是NLP文本处理的基础,此处我们来看NLP的一个非常重要的应用,对文本使用监督学习进行自动分类。 1. 20 Newsgroups数据集介绍 本文要使用NLP中非常经典的一个数据集:20 New…
【火炉炼AI】机器学习036-NLP词形还原
词形还原也是将单词转换为原来的相貌,和上一篇文章中介绍的词干提取不一样,词形还原要难的多,它是一个更加结构化的方法,在上一篇中的词干提取例子中,可以看到将wolves提取为wolv等,这些肯定不是我们所期望的。那么此处我们使用NLP词形还原的方式来将英语单词还原。 1. NLP…
【火炉炼AI】机器学习037-NLP文本分块
文本分块是将一大段文本分割成几段小文本,其目的是比如想获取一段文本中的一小部分,或分割得到固定单词数目的小部分等,经常用于非常大的文本。注意文本分块和分词不一样,分词的目的是把一段文本分割成单词,而文本分块的目的是把一大段文本分割成多个小段文本。 1. NLP文本分块 在不用的…
【火炉炼AI】机器学习038-NLP创建词袋模型
词袋模型(Bag Of Words, BOW)和词向量(Word Embedding, 也叫词嵌套等)是自然语言处理和文本分析的两个最常用的模型。 词袋模型将一段文本看成一系列单词的集合,由于单词很多,故而这段文本就相当于一个袋子,里面装着一系列单词。故而计算机的NLP分析就是…
【火炉炼AI】机器学习034-NLP对文本进行分词
文本分块是将一大段文本分割成几段小文本,其目的是比如想获取一段文本中的一小部分,或分割得到固定单词数目的小部分等,经常用于非常大的文本。注意文本分块和分词不一样,分词的目的是把一段文本分割成单词,而文本分块的目的是把一大段文本分割成多个小段文本。 1. NLP文本分块 在不用的…
【火炉炼AI】机器学习033-构建电影推荐系统
电影推荐系统内部最关键的部件是推荐引擎,和汽车的发动机一样,推荐引擎的作用是产生数据动力,提供数据计算方案。从本质上说,推荐引擎时一个能预测用户兴趣点的模型。对于不同的具体项目要求,推荐引擎也是不一样的,本文主要介绍专门用于电影推荐系统的推荐引擎构建方法。 推荐引擎非常重要,比…
【火炉炼AI】机器学习032-用户之间相似度的计算
在构建推荐引擎时,一般需要计算两个用户之间的相似度,以便找到与数据库中特定用户相似的用户。计算相似度的方法有很多种,其中比较常见的两种是计算欧几里得距离和皮尔逊相关系数,本文分别讲述使用这两种方法来计算用户之间的相似度。 1. 计算两个用户的欧氏距离 欧几里得距离是欧几里得空间…
【火炉炼AI】机器学习031-KNN回归器模型的构建
在上一篇文章中我们学习了构建KNN分类器模型,但是KNN不仅可以用于分类问题,还可以用于回归问题,本章我们来学习KNN回归模型的构建和训练。 1. 准备数据集 此处我们使用随机函数构建了序列型数据集,其产生方式是用函数np.sinc()来产生y值。 用plt将该数据集绘制到图表…
【火炉炼AI】机器学习030-KNN分类器模型的构建
KNN(K-nearest neighbors)是用K个最近邻的训练数据集来寻找未知对象分类的一种算法。其基本的核心思想在我的上一篇文章中介绍过了。 1. 准备数据集 此处我的数据集准备包括数据加载和数据可视化,这部分比较简单,以前文章中使用了多次,直接看数据分布图。 2. 构…
【火炉炼AI】机器学习029-找到离你最近的邻居
最近邻算法的核心思想是:想要判断你属于哪一个类别,先找离你最近的K个邻居,看看这些邻居的大部分属于哪个类别,那么就可以认为你也属于这个类别。 所以,根据这种核心思想,有三个重要的因素:距离度量,K的大小和分类规则。在KNN中,当训练数据集和三要素确定后,相当于将特征空间划分为一…
下一页
个人成就
文章被点赞
294
文章被阅读
102,927
掘力值
2,730
关注了
0
关注者
4,539
收藏集
0
关注标签
8
加入于
2018-08-03