NLP 论文领读

NLP 论文领读

NLP 论文领读

一起研读自然语言处理（NLP）领域的前沿论文！

等 2 人订阅共8篇文章创建于2022-06-13

NLP 论文领读｜无参数机器翻译遇上对比学习：效率和性能我全都要！

检索式增强主要目的是基于一定的检索范式来利用现存数据，影响模型最终得到的结果，从而降低模型参数的负担。本文我们聚焦在机器翻译领域，看看在机器翻译中最新的利用检索来进行增强的范式！

3年前
951
点赞
评论

NLP 论文领读｜无参数机器翻译遇上对比学习：效率和性能我全都要！

2022 年中回顾｜大模型技术最新进展

本文回顾了过去 12 个月以来，国内外大模型的发展趋势，包括百花齐放的国产大模型、新秀不断涌现的多模态模型、萌芽中的通用能力模型等等，并对大模型新应用、预训练框架等方面的进展进行了总结。

3年前
2.4k
2
评论

2022 年中回顾｜大模型技术最新进展

论文领读｜面向机器翻译的多语言预训练技术哪家强？最新进展一睹为快！

随着多语言预训练技术的进一步发展，多语言预训练为跨语言生成任务提供了优良的参数初始化，当多语言预训练之风吹向机器翻译领域，又将发生怎样有趣的化学反应？

3年前
1.8k
1
评论

论文领读｜面向机器翻译的多语言预训练技术哪家强？最新进展一睹为快！

NLP 论文领读｜中文拼写纠错：怎样改善模型对 multi-typo 的纠正效果？

拼写纠错在诸多 NLP 任务和应用中都有重要作用，如 OCR、语音识别和搜索引擎等。在 NLP 任务和日常工作生活场景中，中文文本中的 typo 主要是拼音和字形相似导致的。

3年前
1.9k
2
评论

NLP 论文领读｜中文拼写纠错：怎样改善模型对 multi-typo 的纠正效果？

NLP 论文领读｜文本生成模型退化怎么办？SimCTG 告诉你答案

重复生成是长文本生成中很常见的现象，论文中提出一种 SimCTG 方法，通过抑制模型生成不自然且包含不必要重复的文本，从而缓解文本生成模型的退化问题。

3年前
2.0k
6
评论

NLP 论文领读｜文本生成模型退化怎么办？SimCTG 告诉你答案

NLP 论文领读｜改善意图识别的语义表示：有监督预训练中的各向同性正则化方法

意图识别（intent detection）是面向任务对话系统的核心模块，其标注数据较少，所以研究怎样用少量数据训练出一个优秀的意图分类器（few-shot intent detection

3年前
1.3k
1
评论

NLP 论文领读｜改善意图识别的语义表示：有监督预训练中的各向同性正则化方法

论文领读｜合成数据的妙用：低成本构建高质量的大规模平行语料

人工构建高质量平行数据是一件成本巨大的事情，且几乎不可能满足目前神经机器翻译对数据量的需求。因此人们尝试通过自动构建平行数据的技术。该论文利用合成数据，对挖掘得到的平行数据中不完全对齐的数据进行替换。

3年前
1.3k
2
评论

论文领读｜合成数据的妙用：低成本构建高质量的大规模平行语料

论文领读｜缺少有标注的数据集怎么训练文本检索模型？来看看 LaPraDoR怎么做的吧

如果你想训练一个文本检索模型，但是缺少有标注的数据集，那不妨来看看这篇论文,LaPraDoR 是一个无监督的文本检索模型，不依赖人工标注的数据集，可以在通用领域的大型数据集上进行训练。

3年前
1.2k
4
评论

论文领读｜缺少有标注的数据集怎么训练文本检索模型？来看看 LaPraDoR怎么做的吧