NLP文本表达以及专业基础

111 阅读2分钟

图片.png

什么是词嵌入
词嵌入的实现方式
NLP中的文本表示方法有几种
NLP中文本分布式表示
介绍一下wordvector的实现方式
Word2vec的两种训练目标是什么 其中skip-gram训练的loss function是什么
使用Word2vec算法计算得到的词向量之间为什么能够表征词语之间的语义近似关系?怎么判断wordvector的好坏
word2vec中,负采样相比层次化softmax,有什么优缺点?层次化softmax能保证概率归一化吗?
Word2vec为什么能学习出语义相似的词语呢
写一下项目中用到的跨语言Embedding的推导过程
词向量发展历史:one-hot、NNLM、word2vec、glove、fasttext、ELMO、CoVE、GPT、BERT、ERNIE、ERNIE 2.0、bert-wwm、roberta、xlnet
介绍一下混淆矩阵和常用的模型评判标准
什么是信息熵,条件熵,联合熵
什么是交叉熵
什么是互信息
什么是perplexity?它在nlp里的位置
有没有遇到过过拟合?为什么会过拟合?怎么处理过拟合?
拟合怎么办 欠拟合怎么办 怎么判断过拟合(训练集表现好、验证集表现不好) 标签分布不均衡怎么办 样本太少怎么办 (交叉验证)
过拟合产生的原因有哪些 解决方法有哪些
auc指标 优缺点
过拟合的解决方式 dropout除了随机drop掉 还需要什么 训练的时候和预测的时候分别怎么做
准确率 召回率 f1 auc ROC
对特征工程 了解么
知识图谱嵌入讲一下TransE算法有什么缺点,如何改进
单词纠错怎么做
知识图谱表示学习和Word2vec这种词向量嵌入有什么异同呢
知识图谱实体关系抽取的技术
知识图谱实体连接和实体消岐
在样本量较少的情况下如何扩充样本数量?