自然语言处理

自然语言处理

自然语言处理

自然语言处理学习

等 31 人订阅共178篇文章创建于2022-01-21

论文笔记：StarCoder : May The Source Be With You !

导语这篇工作是BigCode社区继SantaCoder后的最新工作，作者发布了具有15.5B参数及8K上下文长度的代码大模型StarCoder，StarCoder模型优于支持多种编程语言的每个开放的

2年前
1.6k
3
评论

论文笔记：Text Classification in the Wild: a Large-scale Long-tailed Name Normalizati

导语本文介绍了一个大型学术机构命名文本分类数据集，主要特点在于这是一个巨大的长尾分布的单文本分类数据集。会议：ICASSP 2023 链接：https://arxiv.org/abs/2302.0

2年前
570
3
评论

Alpaca-lora代码实战

导语之前的几篇博客介绍了Meta开源的大模型LLaMA（https://juejin.cn/post/7224369270141354043 ）以及斯坦福研究团队在LLaMA-7B基础上训练得到的堪

2年前
1.5k
3
评论

论文笔记：Toolformer: Language Models Can Teach Themselves to Use Tools

导语 Toolformer这篇论文尝试让LLM也可以使用工具，调用各种API来完成相应的任务。会议：Arxiv 2023 链接：https://arxiv.org/abs/2302.04761 1

2年前
3.0k
5
3

论文笔记：ColBERTv2: Effective and Efﬁcient Retrieval via Lightweight Late Interactio

导语本文是ColBERT的后续工作，通过将一些单向量模型采用的优化策略融入到原始的ColBERT模型中，得到了本文提出的ColBERTv2模型，并取得了更加先进的表现。会议：NAACL 2022

2年前
2.5k
4
1

论文笔记：LoRA: Low-Rank Adaptation of Large Language Models

导语本文介绍了学术界在资源不富裕的情况下能够玩得起大模型的一种方式：LoRA，该技术可以大大优化大模型Fine-tune所需的算力资源，最近颇受关注。会议：ICLR 2022 链接：https:/

2年前
2.9k
5
1

论文笔记：Self-Instruct: Aligning Language Model with Self Generated Instructions

导语本文介绍了如何使用LLM来大规模自动生成instruction。实验结果表明，这种数据增强方式非常有效，接下来就让我们看看具体是怎么做的吧。会议：Arxiv 链接：https://arxiv.

2年前
6.6k
6
2

Alpaca：一个健壮、可复现的指令调优模型

本文正在参加「金石计划」导语上篇博客介绍了Meta AI发布的开源大型语言模型LLaMA，本文介绍斯坦福的研究人员在LLaMA基础上基于指令微调（Instruction-tuning），仅使用约

2年前
1.8k
6
2

论文笔记：LLaMA: Open and Efficient Foundation Language Models

导语随着ChatGPT的爆火，大语言模型逐渐成为了研究热点，然而过去的大部分工作中的大语言模型LLM都是闭源的，仅提供API有偿调用，本文介绍了最近MetaAI开源的大语言模型LLaMA。会议：A

2年前
2.2k
7
2

论文笔记：LLaMA: Open and Efficient Foundation Language Models

论文笔记：AugGPT: Leveraging ChatGPT for Text Data Augmentation

导语会议：Arxiv 2023 链接：https://arxiv.org/pdf/2302.13007.pdf 1 简介训练数据的数量和质量是NLP中的核心点之一，然而在Few-shot Lear

2年前
1.7k
5
1

论文笔记：CodeT5Mix A Pretrained Mixture of Encoder-decoder Transformers for Code Und

导语会议：ICLR 2023在投链接：https://openreview.net/pdf?id=VPCi3STZcaO 1 简介尽管预训练语言模型在代码领域取得了不错的表现，但现有的模型仍具有

2年前
782
4
1

论文笔记：UniXcoder: Unified Cross-Modal Pre-training for Code Representation

导语会议：ACL 2022 链接：https://arxiv.org/abs/2203.03850 1 简介已有的三种类型的Code LLM（Encoder-only、Decoder-only、E

2年前
3.4k
4
1

论文笔记：DocPrompting: Generating Code by Retrieving the Docs

导语会议：ICLR 2023 链接：https://arxiv.org/abs/2207.05987 1 简介现存的代码生成模型要么直接从作为训练数据提供的输入-输出对中学习，或从交织在一起的自然

2年前
1.1k
4
2

论文笔记：CodeRetriever: Large-scale Contrastive Pre-training for Code Search

导语会议：EMNLP 2022 链接：https://arxiv.org/abs/2201.10866 1 简介代码搜索（Code search）旨在检索给定自然语言查询该功能的相关代码，现有的C

2年前
813
4
1

论文笔记：Detect-Localize-Repair: A Uniﬁed Framework for Learning to Debug with CodeT

本文正在参加人工智能创作者扶持计划导语本篇工作是Salesforce亚洲研究院在EMNLP上发表的一篇论文，主要介绍了如何利用多任务学习的方式借助CodeT5进行代码Bug的检测和修复，并发布了两

2年前
833
6
2

论文笔记：PAL: Program-aided Language Models

本文正在参加人工智能创作者扶持计划导语会议：Arxiv 2023 链接：https://arxiv.org/pdf/2211.10435.pdf 1 简介最近，大型语言模型LLM在广泛的任务上

2年前
2.8k
6
1

论文笔记：GraphCodeBERT: Pre-training Code Representations with Data Flow

本文正在参加「金石计划」导语会议：ICLR 2021 链接：https://arxiv.org/abs/2009.08366 1 简介 NLP的飞速发展促进了Code LLM的广泛研究，然而，以前

2年前
1.4k
3
1

论文笔记：DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

导语 DS-1000是专注于数据科学领域的NL2Code数据集，也是最近发布的新文章，这里简要记录。会议：Arxiv 2022 链接：https://arxiv.org/abs/2211.11501

3年前
2.7k
4
评论

论文笔记：When Neural Model Meets NL2Code: A Survey

导语最近调研到一篇NL2Code领域比较全面的综述文章，是上个月挂到Arxiv的，总结了很多最新的内容，这篇论文涉及的方面还算是比较广，然而文章稍有冗余，给人感觉像是在凑字数撑篇幅，很多关键的地方又

3年前
2.5k
4
评论

论文笔记：The Pile: An 800GB Dataset of Diverse Text for Language Modeling

导语会议：Arxiv 2020 链接：https://arxiv.org/abs/2101.00027 1 简介随着NLP领域不断扩大语言模型训练规模，对高质量海量文本数据的需求将持续增长。大多数

3年前
6.5k
7
评论