NLP面试问题整理[2018年-已过时]

3 阅读3分钟
  • 开放域实体关系抽取

它的结果不是用于构建知识图谱,而是存储大量的候选关系。依据置信水平来进行使用。

 

  • bert embedding的lookup

 

  • BERT如何处理超过512字符

 

  • masked model用途

 

  • 你知道的知识图谱

wikidata、freebase、wordnet

 

  • scaled dot-product attention(键值对注意力)

 

  • 语义填充槽(槽填充)

 

  • 除了self-attention,你还知道有哪些注意力

 

  • 隐马尔可夫模型

隐马尔可夫模型是关于时序的概率模型,描述由一个隐藏的马尔可夫链生成不可观测的状态随机序列,再由各个状态生成一个观测而产生观测序列的过程。

由初始状态向量、状态转移矩阵和观测概率矩阵组成

 

  • sql连表查询

 

  • 为什么用CRF

lstm,只考虑了序列信息,没有利用标签信息,没有考虑上一时刻的输出。

 

  • 为什么LSTM加入几个门就可以捕捉更长的依赖呢

 

  • 维特比算法

动态规划,见书中186页图,每一列概率仅由前一列决定,并且到这列的走哪条路是确定的,每列的概率向后传递,最后一列的概率最大的就是最终路径的概率,最后再原路返回。

 

  • 谈一谈CRF

X表示观测序列,Y表示状态/标记序列

条件随机场是给定随机变量X条件下,随机变量Y的马尔可夫随机场。

标注问题用的是线性链条件随机场,即P(Yi|X,Y1,Y2,Y3...) = P(Yi|X,Yi-1,Yi+1)当前状态仅与相邻状态有关,这个假设使得条件随机场可以解。

条件随机场是一直算到最后一项,然后找出最优路径的问题,因此f(y1....yn|x) = h(y1|x) + g(y1,y2) +h(y2|x) + g(y2,y3) + ...,我们最后只用算g这个矩阵(当然这步假设了g与x无关,实际上,h就是x与y的关系,因此在g里省略,n指序列长度)。g是各个标签间的转移概率,因此是一个C*C(C指标签数量)的矩阵。

 

CRF是一个条件概率

  • 用过哪些聚类算法

 

 

  • k-means的k的取值

 

  • k-means的步骤

 

 

  • 自回归、非自回归

 

  • 线性、非线性

 

  • argmax怎么实现的

 

  • 相似度算法、距离算法

 

  • linux删除大文件

rsync

 

  • http怎么保持连接的

 

 

  • vim批量添加字符66

%s/^/

%s/$/

 

  • transformer中encoder的什么传到了decoder中

 

  • transformer中的输入是什么

 

  • 深度学习的损失函数

blog.csdn.net/cfan927/art…

 

  • 机器学习相关

blog.csdn.net/wyisfish/ar…

zhuanlan.zhihu.com/p/40590443

www.julyedu.com/question/to…

blog.csdn.net/woaidapaopa…

www.cnblogs.com/kongweisi/p…

 

  • BERT ELMO GPT

www.cnblogs.com/dogecheng/p…

 

  • BERT

zhuanlan.zhihu.com/p/151412524

 

  • 孪生网络

 

  • RoBERTa

修改了训练目标和参数

删除NSP任务

MASK也修改

 

  • ALBEERT

减小模型参数

encoder共享层参数,attention

SOP(sentence-order prediction),判断两句是否连续,修改负例为调换两句位置

去掉dropout

embedding和hidden加了中间处理

 

  • 上线项目考虑

时间成本 模型效率、并发控制。

经济成本、用户体验

维护、安全性

 

  • BERT中Transformer结构

 

  • NLP数据增强的方法
  1. 利用原有信息,例如 ① 做match的任务,a-b b-c 可增加 a-c ② 数据裁剪和拼接

  2. 同义词替换、回译、随机插入、随机替换、随机删除、噪音、GAN、语境增强