Stephen重名了99955

赞

1

|

搜索文章

原来word2vec可以这么简单

说到Word2vec,它可谓非结构化数据里面的佼佼者,尤其是在推荐和NLP当中, 足以体现它的优势所在,并且多年一直备受工业界喜爱. 那么word2vec到底是怎么个原理的, 发现身边总是有很多人问, 确不能准确的说出为什么是两个矩阵, 到底是怎么自动反向传播的, 以及对于so…

5年前
577
点赞
3

文本对分类以及多标签分类问题的解决思路

现实生活中,有大量的文本需要人工区分类,而自然语言相关技术的发展使得人们可以通过算法的手段代替手工,极大的加速了社会的发展. 而文本分类任务一直是NLP一只老掉牙的事,从常规的新闻文本分类到特定领域的多类分类(Multiclass classification) 和多标签分类(…

5年前
2.2k
点赞
评论

文本如何在计算机中表示

计算机擅长处理数据,但是我们日常生活中使用的文字应该如何表示成计算机可以看懂的文字呢?对此,自然语言处理(NLP)便成为了一个重要的研究领域,如何表示文本这种非结构化的数据又是NLP的一个重要方向. 近年来常见的的文本表示模型有词袋模型（Bag of Words），TF-IDF…

5年前
232
点赞
评论

决策【GDBT】在kaggle上的利器(三)

得到第 m 棵决策树。不同问题的提升树的区别在于损失函数的不同，如分类用指数损失函数，回归使用平方误差损失称 r 为残差，所以第 m 棵决策树是对该残差的拟合。要注意的是提升树算法中的基学习器 CART 树是回归树 GBDT 全称为：Gradient Boosting Dec…

5年前
1.5k
2
评论

决策在kaggle上的利器(二)

Boosting 方法是将“弱学习算法”提升为“强学习算法”的过程，通过反复学习得到一系列弱分类器（决策树和逻辑回归），组合这些弱分类器得到一个强分类器。Boosting 算法要涉及到两个部分，加法模型和前向分步算法。其中，l (x; am）是弱分类器，m 是弱分类器学习到的…

5年前
299
点赞
评论

决策在kaggle上的利器(一)

信息熵是用来衡量信息不确定性的指标，不确定性是一个事出现不同结果的可能性。计算方法如下所示在 14 条历史数据中，打球的概率为 0.64, 不打球的概率为 0.36, 熵值为 0.94。接下来我们寻找晴朗与否，湿度，风力和温度四种状况与是否打高尔夫相关性最高的一个，进行决策树…

5年前
437
点赞
评论

个人成就

文章被点赞 2

文章被阅读 5,250

加入于

2020-02-11