- 开放域实体关系抽取
它的结果不是用于构建知识图谱,而是存储大量的候选关系。依据置信水平来进行使用。
- bert embedding的lookup
- BERT如何处理超过512字符
- masked model用途
- 你知道的知识图谱
wikidata、freebase、wordnet
- scaled dot-product attention(键值对注意力)
- 语义填充槽(槽填充)
- 除了self-attention,你还知道有哪些注意力
- 隐马尔可夫模型
隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测序列的过程。
由初始状态向量、状态转移矩阵和观测概率矩阵组成
- sql连表查询
- 为什么用CRF
lstm,只考虑了序列信息,没有利用标签信息,没有考虑上一时刻的输出。
- 为什么LSTM加入几个门就可以捕捉更长的依赖呢
- 维特比算法
动态规划,见书中186页图,每一列概率仅由前一列决定,并且到这列的走哪条路是确定的,每列的概率向后传递,最后一列的概率最大的就是最终路径的概率,最后再原路返回。
- 谈一谈CRF
X表示观测序列,Y表示状态/标记序列
条件随机场是给定随机变量X条件下,随机变量Y的马尔可夫随机场。
标注问题用的是线性链条件随机场,即P(Yi|X,Y1,Y2,Y3...) = P(Yi|X,Yi-1,Yi+1)当前状态仅与相邻状态有关,这个假设使得条件随机场可以解。
条件随机场是一直算到最后一项,然后找出最优路径的问题,因此f(y1....yn|x) = h(y1|x) + g(y1,y2) +h(y2|x) + g(y2,y3) + ...,我们最后只用算g这个矩阵(当然这步假设了g与x无关,实际上,h就是x与y的关系,因此在g里省略,n指序列长度)。g是各个标签间的转移概率,因此是一个C*C(C指标签数量)的矩阵。
CRF是一个条件概率
- 用过哪些聚类算法
- k-means的k的取值
- k-means的步骤
- 自回归、非自回归
- 线性、非线性
- argmax怎么实现的
- 相似度算法、距离算法
- linux删除大文件
rsync
- http怎么保持连接的
- vim批量添加字符66
%s/^/
%s/$/
- transformer中encoder的什么传到了decoder中
- transformer中的输入是什么
- 深度学习的损失函数
- 机器学习相关
- BERT ELMO GPT
- BERT
zhuanlan.zhihu.com/p/151412524
- 孪生网络
- RoBERTa
修改了训练目标和参数
删除NSP任务
MASK也修改
- ALBEERT
减小模型参数
encoder共享层参数,attention
SOP(sentence-order prediction),判断两句是否连续,修改负例为调换两句位置
去掉dropout
embedding和hidden加了中间处理
- 上线项目考虑
时间成本 模型效率、并发控制。
经济成本、用户体验
维护、安全性
- BERT中Transformer结构
- NLP数据增强的方法
-
利用原有信息,例如 ① 做match的任务,a-b b-c 可增加 a-c ② 数据裁剪和拼接
-
同义词替换、回译、随机插入、随机替换、随机删除、噪音、GAN、语境增强