ai - 松直的收藏集 - 掘金

ai

更多收藏集

7篇文章 · 0订阅

如何使用 scikit-learn 为机器学习准备文本数据

文本数据需要特殊处理，然后才能开始将其用于预测建模。我们需要解析文本，以删除被称为标记化的单词。然后，这些词还需要被编码为整型或浮点型，以用作机器学习算法的输入，这一过程称为特征提取（或矢量化）。 scikit-learn 库提供易于使用的工具来对文本数据进行标记和特征提取。…

腾讯云开发者
8年前
982
8
评论

最大熵模型

在已知约束的情况下，我们建模时应该满足这些约束，并且对其他条件作最复杂最一般的假设。这样会得出更贴近于真实的结果。一般来说，这种假设就是最大熵原理。因为熵最大信息量最大，不确定性最大。最大熵原理认为，学习概率模型时，在所有可能的概率分布模型中，熵最大的模型，为最好的模型。将…

香橙云子
8年前
2.3k
14
评论

Python 深度学习库 Keras 发布官方中文文档，这里有你需要了解的一切

Keras 框架发明者François Chollet推荐文章的翻译，出于Keras与scikit-learn的相似性，给出的引导教程：通过与scikit-learn的比较来使用Keras。使用 Keras 创建、评价深度神经网络非常的便捷，不过你需要严格地遵循几个步骤来构建…

金正皓
8年前
24k
780
18

Python 深度学习库 Keras 发布官方中文文档，这里有你需要了解的一切

奔走相告！亚马逊内部机器学习课程现向大众免费开放

选自aws.amazon，机器之心编译，参与：思源、王淑婷。该课程已经实施了 20 多年。公司内部上千的工程师都专于机器学习，因此亚马逊的零售页面、产品、实现技术和商店少有不提升的。很多 AWS 客户都从中受益，现在，亚马逊打算向所有开发者开放这些课程，而不是只提供给那些最强…

机器之心
7年前
3.5k
43
评论

奔走相告！亚马逊内部机器学习课程现向大众免费开放

基于隐变量的推荐模型

矩阵分解上一篇介绍了协同过滤，其重点就是在人-物品矩阵上，其中心思想是去对人或者物品进行聚类，从而找到相似人或者相似物品，用群体的智慧为个人进行推荐，但是，这种近邻模型也存在好多问题：随着人和物品的增

颛顼
7年前
1.8k
7
评论

中文分词原理及常用Python中文分词库介绍

中文分词，即 Chinese Word Segmentation，即将一个汉字序列进行切分，得到一个个单独的词。表面上看，分词其实就是那么回事，但分词效果好不好对信息检索、实验结果还是有很大影响的，同时分词的背后其实是涉及各种各样的算法的。中文分词与英文分词有很大的不同，对英…

崔庆才丨静觅
7年前
6.7k
80
评论

ML中相似性度量和距离的计算

在机器学习中，经常需要使用距离和相似性计算的公式，在做分类时，常常需要计算不同样本之间的相似性度量(Similarity Measurement)，计算这个度量，我们通常采用的方法是计算样本之间的“距离(Distance)”。比如利用k-means进行聚类时，判断个体所属的类别…

应兆康
8年前
3.6k
17
评论