Himon

算法工程师

大家好，我是一只梦想环游世界的程序猿。就像相信大米能够煮成米饭，我也相信数据和算法的力量。

赞

43

|

搜索文章

TF_IDF的信息论依据

TF_IDF的信息论依据一个查询(query)中每个关键字(key word)w的权重应该反映这个词对查询提供了多少信息。

4年前
2.0k
10
评论

BM25算法, Best Matching

BM25是信息索引领域用来计算query与文档相似度得分的经典算法。不同于TF-IDF，BM25的公式主要由三个部分组成： query中每个单词t与文档d之间的相关性单词t与query之间的相似性

4年前
3.4k
11
评论

Glove原理解释以及实战演练

Glove向量训练步骤： 1. 构建共现矩阵假设共现矩阵为X，每个元素为： $X_{ij}$,其表示的意义是：在整个语料库中，单词j和单词i共同出现在一个窗口中的次数。这里注意：一般而言，这个次数的

4年前
1.7k
9
评论

【深度文本匹配】之模型演绎

文本匹配是最基础的自然语言处理任务，在很多项目，都需要做文本匹配，比如搜索、对话系统、分类系统等等等，而深度文本匹配是目前成熟又容量落地的方法...

4年前
1.8k
7
评论

预训练模型--BERT演绎

预训练语言模型俨然已经成为一种新的NLP处理范式，不管是在学术界还是工业界，都已经成为主流。随着BERT的横空出世，各种变形体、强化体也“纷至沓来”。。。

4年前
1.3k
6
评论

Few-Shot Text Classification

在智能客服领域，对意图分类是核心所在。而往往会出现某些意图，训练sample比较少，也就是所谓的长尾问题，不能用传统的supervised classification模型来解决。对待这种场景的分类，

4年前
1.7k
6
评论

关键词抽取

本文介绍关键词抽取任务的相关方法，主要偏向传统的、非监督的方法，这些方法都是强大的baseline，在工业界具有极好的表现。

4年前
670
4
评论

让BERT飞一会

BERT之大，让人头疼，所以让BERT飞一会，才能飞上云霄。较少一些方案：量化，剪纸，模型蒸馏，模型结构上的优化，

4年前
1.3k
5
评论

label embedding做文本分类

介绍两篇使用label embedding方法做文本分类的文章，是做文本分类的一种思路。不仅token可以embedding，label同样也可以embedidng。

4年前
1.8k
4
评论

NLP中的Data Augmentation

在现实应用中，标注数据的缺失往往是NLPer面临的最头疼的问题，本文总结了一些常用的模型和技巧，包括无条件增强，条件增强，半监督学习等

4年前
1.7k
5
评论

个人成就

文章被点赞 121

文章被阅读 47,340

掘力值 1,181

加入于

2019-09-19