机器学习 - C语言爱好者的收藏集 - 掘金

机器学习

C语言爱好者

更多收藏集

7篇文章 · 0订阅

如何计算词语的相似性(附github)

文本的相似性计算方法有很多，前面也讲了很多方式，下面继续讨论一种词语相似度的计算方法——基于知网的词语相似性计算。词语相似度也是没有一种明确的客观标准可用来衡量，相似度涉及到词语的词法、句法、语义、语用等，很难有一个统一的定义。词语相似度一般可分为两类方法，一种是基于 On…

超人汪小建
7年前
4.2k
11
评论

如何计算词语的相似性(附github)

kmeans实现文本聚类

需求拿到的需求是输入n个文本，对文本进行聚类，由于这些输入不能通过历史数据进行训练，所以这个主要就是用无监督学习来解决。 kmeans 谈到聚类就会想到kmeans，它的核心思想是给定的K值和K个初始质心将样本中每个点都分到距离最近的类簇中，当所有点分配完后根据每个类簇的所有点…

超人汪小建
8年前
1.9k
12
评论

人工智障 2 : 你看到的AI与智能无关

两年前，写了一篇文章《为什么现在的人工智能助理都像人工智障》，当时主要是怼“智能助理们”。这次呢则是表达 “我不是针对谁，只是现在所有的深度学习都搞不定对话AI”，以及“你看都这样了，那该怎么做AI产品”。

阴明
7年前
2.3k
42
9

人工智障 2 : 你看到的AI与智能无关

北大开源全新中文分词工具包：准确率远超THULAC、结巴分词

选自GitHub，作者：罗睿轩、许晶晶、孙栩，机器之心编辑。 pkuseg 是由北京大学语言计算与机器学习研究组研制推出的一套全新的中文分词工具包。它简单易用，支持多领域分词，在不同领域的数据上都大幅提高了分词的准确率。高分词准确率：相比于其他的分词工具包，该工具包在不同领域…

机器之心
7年前
4.6k
19
1

推荐系统中的排序技术

在工业应用中，推荐系统通常可分为两部分，召回和排序。对音频使用卷积神经网络进行分析。这些算法各有特点，音频分析显然可以用于解决冷启动问题，NLP处理音乐评论更是可以学得专业人士的领域知识，它们各自独立运行给出自己的结果，由于独立，算法数目可增可减，亦可各自独立迭代变化。这…

guerbai
7年前
4.4k
9
1