NLP

NLP

NLP

NLP相关的知识点

等 9 人订阅共15篇文章创建于2021-09-24

入门-文本摘要-课程提纲

Outline（规划） class1：理论课：专题主要内容介绍；文本摘要问题定义和落地场景，目前业内的主流方案和框架和主要问题；常用数据集介绍；摘要质量评估方法，评价指标介绍及其实际问题；文本摘要传

11月前
98
点赞
评论

信息论基础

自信息量：考虑一个随机事件$x$，它发生的概率为$p(x)$，我们另：$I(x) = -\log{(p(x))}$ 为随机事件$x$的自信息量。自信息熵表示某个随机事件发生所带来的信息量，事件发生的

3年前
133
1
评论

文本相似度算法(无监督算法)

本文主要介绍文本相似度的非监督算法，相比较有监督的复杂模型，无监督模型和算法在现实场景下经常使用，是必须要掌握的基础技能。

4年前
2.1k
6
评论

Rasa学习笔记2--Rasa Core

1. 概念介绍 Learning from real conversations is more important than designing hypothetical ones，我觉得这是非常重要的事情，我们在构建自己的bot的时候，我们往往想绞尽脑汁来排列组合出各种意…

4年前
846
5
评论

训练语言模型，零概率和平滑问题

训练语言模型，零概率和平滑问题当我们训练语言模型时候，就算使用一个相当大量的语料，如果直接用比值计算概率，大部分条件概率依然是零，这种模型称之为“不平滑”。在实际应用中，这种现象不可避免。古德提出

4年前
2.1k
8
评论

TF_IDF的信息论依据

TF_IDF的信息论依据一个查询(query)中每个关键字(key word)w的权重应该反映这个词对查询提供了多少信息。

4年前
2.0k
10
评论

BM25算法, Best Matching

BM25是信息索引领域用来计算query与文档相似度得分的经典算法。不同于TF-IDF，BM25的公式主要由三个部分组成： query中每个单词t与文档d之间的相关性单词t与query之间的相似性

4年前
3.5k
11
评论

Glove原理解释以及实战演练

Glove向量训练步骤： 1. 构建共现矩阵假设共现矩阵为X，每个元素为： $X_{ij}$,其表示的意义是：在整个语料库中，单词j和单词i共同出现在一个窗口中的次数。这里注意：一般而言，这个次数的

4年前
1.7k
9
评论

【深度文本匹配】之模型演绎

文本匹配是最基础的自然语言处理任务，在很多项目，都需要做文本匹配，比如搜索、对话系统、分类系统等等等，而深度文本匹配是目前成熟又容量落地的方法...

4年前
1.8k
7
评论

预训练模型--BERT演绎

预训练语言模型俨然已经成为一种新的NLP处理范式，不管是在学术界还是工业界，都已经成为主流。随着BERT的横空出世，各种变形体、强化体也“纷至沓来”。。。

4年前
1.3k
6
评论

Few-Shot Text Classification

在智能客服领域，对意图分类是核心所在。而往往会出现某些意图，训练sample比较少，也就是所谓的长尾问题，不能用传统的supervised classification模型来解决。对待这种场景的分类，

4年前
1.7k
6
评论

关键词抽取

本文介绍关键词抽取任务的相关方法，主要偏向传统的、非监督的方法，这些方法都是强大的baseline，在工业界具有极好的表现。

4年前
683
4
评论

让BERT飞一会

BERT之大，让人头疼，所以让BERT飞一会，才能飞上云霄。较少一些方案：量化，剪纸，模型蒸馏，模型结构上的优化，

4年前
1.3k
5
评论

label embedding做文本分类

介绍两篇使用label embedding方法做文本分类的文章，是做文本分类的一种思路。不仅token可以embedding，label同样也可以embedidng。

4年前
1.8k
4
评论

NLP中的Data Augmentation

在现实应用中，标注数据的缺失往往是NLPer面临的最头疼的问题，本文总结了一些常用的模型和技巧，包括无条件增强，条件增强，半监督学习等

4年前
1.8k
5
评论