首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
NLP
Himon
创建于2021-09-24
订阅专栏
NLP相关的知识点
等 9 人订阅
共15篇文章
创建于2021-09-24
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
入门-文本摘要-课程提纲
Outline(规划) class1: 理论课:专题主要内容介绍;文本摘要问题定义和落地场景,目前业内的主流方案和框架和主要问题;常用数据集介绍;摘要质量评估方法,评价指标介绍及其实际问题;文本摘要传
信息论基础
自信息量: 考虑一个随机事件$x$,它发生的概率为$p(x)$,我们另:$I(x) = -\log{(p(x))}$ 为随机事件$x$的自信息量。自信息熵表示某个随机事件发生所带来的信息量,事件发生的
文本相似度算法(无监督算法)
本文主要介绍文本相似度的非监督算法,相比较有监督的复杂模型,无监督模型和算法在现实场景下经常使用,是必须要掌握的基础技能。
Rasa学习笔记2--Rasa Core
1. 概念介绍 Learning from real conversations is more important than designing hypothetical ones,我觉得这是非常重要的事情,我们在构建自己的bot的时候 ,我们往往想绞尽脑汁来排列组合出各种意…
训练语言模型,零概率和平滑问题
训练语言模型,零概率和平滑问题 当我们训练语言模型时候,就算使用一个相当大量的语料,如果直接用比值计算概率,大部分条件概率依然是零,这种模型称之为“不平滑”。在实际应用中,这种现象不可避免。 古德提出
TF_IDF的信息论依据
TF_IDF的信息论依据 一个查询(query)中每个关键字(key word)w的权重应该反映这个词对查询提供了多少信息。
BM25算法, Best Matching
BM25是信息索引领域用来计算query与文档相似度得分的经典算法。 不同于TF-IDF,BM25的公式主要由三个部分组成: query中每个单词t与文档d之间的相关性 单词t与query之间的相似性
Glove原理解释以及实战演练
Glove向量训练步骤: 1. 构建共现矩阵 假设共现矩阵为X,每个元素为: $X_{ij}$,其表示的意义是:在整个语料库中,单词j和单词i共同出现在一个窗口中的次数。这里注意:一般而言,这个次数的
【深度文本匹配】之模型演绎
文本匹配是最基础的自然语言处理任务,在很多项目,都需要做文本匹配,比如搜索、对话系统、分类系统等等等,而深度文本匹配是目前成熟又容量落地的方法...
预训练模型--BERT演绎
预训练语言模型俨然已经成为一种新的NLP处理范式,不管是在学术界还是工业界,都已经成为主流。随着BERT的横空出世,各种变形体、强化体也“纷至沓来”。。。
Few-Shot Text Classification
在智能客服领域,对意图分类是核心所在。而往往会出现某些意图,训练sample比较少,也就是所谓的长尾问题,不能用传统的supervised classification模型来解决。对待这种场景的分类,
关键词抽取
本文介绍关键词抽取任务的相关方法,主要偏向传统的、非监督的方法,这些方法都是强大的baseline,在工业界具有极好的表现。
让BERT飞一会
BERT之大,让人头疼,所以让BERT飞一会,才能飞上云霄。较少一些方案:量化,剪纸, 模型蒸馏,模型结构上的优化,
label embedding做文本分类
介绍两篇使用label embedding方法做文本分类的文章,是做文本分类的一种思路。不仅token可以embedding,label同样也可以embedidng。
NLP中的Data Augmentation
在现实应用中,标注数据的缺失往往是NLPer面临的最头疼的问题,本文总结了一些常用的模型和技巧,包括无条件增强,条件增强,半监督学习等