Text-to-Code

Text-to-Code

Text-to-Code

专注于AI辅助代码的各类论文笔记、资料和实践整理。

等 14 人订阅共28篇文章创建于2023-01-02

高质量数据is all you need：Textbooks Are All You Need论文笔记

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，接下来的几篇博客将

1年前
842
4
评论

高质量数据is all you need：Textbooks Are All You Need论文笔记

论文笔记：Code Llama: Open Foundation Models for Code

导语 Code Llama是开源模型Llama 2在代码领域的一个专有模型，作者通过在代码数据集上进行进一步训练得到了了适用于该领域的专有模型，并在测试基准中超过了同等参数规模的其他公开模型。链接：

1年前
1.1k
5
1

论文笔记：Code Llama: Open Foundation Models for Code

Self-evolve——基于大语言模型的代码演进框架

导语本研究提出了一个名为Self-evolve的框架，它旨在通过大型语言模型（LLMs）实现代码生成的进化。这一框架在Text-to-Code任务中引入了一种全新的处理流程，以提高LLMs在代码生成

2年前
774
5
1

Self-evolve——基于大语言模型的代码演进框架

从生成到调试：大型语言模型的自我演进之旅

导语大型语言模型（LLMs）现在已成为代码生成的重要工具。然而，这些模型面临一个关键挑战：如何确保一次性生成的代码具有高质量。传统方法依赖于生成多个代码样本并从中选择最佳选项，但这种方法往往忽略了代

2年前
547
4
3

从生成到调试：大型语言模型的自我演进之旅

超越开源与闭源Code LLMs！——WizardCoder，一款Code Evol-Instruct tuning的代码生成模型

我正在参加「掘金·启航计划」导语这个工作的整体思路比较简洁，可以认为就是将之前一篇论文（WizardLM）中提出的Evol-instruct的思想应用到了Code LLM领域（之前是通用领域），整

2年前
3.9k
2
1

RepoFusion：结合存储库上下文的代码补全模型

我正在参加「掘金·启航计划」导语本文是RLPG（ICML 2023）论文的后续工作，本文通过结合不同的存储库上下文来提升基本的代码模型的补全能力，实验显示，作者通过基于CodeT5-base（22

2年前
1.2k
3
1

RepoCoder：通过迭代检索提升仓库级代码补全（Repository-Level Code Completion）

我正在参加「掘金·启航计划」导语本文介绍了一种名为 RepoCoder 的仓库级代码完成框架，它通过利用仓库级信息，结合相似度检索器和预训练的代码语言模型，提高了代码完成的准确性和效率。同时，该文

2年前
2.0k
3
1

大型代码语言模型的项目级提示生成（Repository-Level Prompt Generation for Code LLM）

我正在参加「掘金·启航计划」导语本文介绍了如何从存储库中获取对大型代码语言模型进行代码生成有帮助的Prompt的一些探索，整体过程比较朴素，就是使用一些规则或者设计网络选取存储库中的内容，但效果惊

2年前
2.0k
4
1

论文笔记：CodeT5Mix A Pretrained Mixture of Encoder-decoder Transformers for Code Und

导语会议：ICLR 2023在投链接：https://openreview.net/pdf?id=VPCi3STZcaO 1 简介尽管预训练语言模型在代码领域取得了不错的表现，但现有的模型仍具有

2年前
756
4
1

论文笔记：UniXcoder: Unified Cross-Modal Pre-training for Code Representation

导语会议：ACL 2022 链接：https://arxiv.org/abs/2203.03850 1 简介已有的三种类型的Code LLM（Encoder-only、Decoder-only、E

2年前
3.3k
4
1

论文笔记：DocPrompting: Generating Code by Retrieving the Docs

导语会议：ICLR 2023 链接：https://arxiv.org/abs/2207.05987 1 简介现存的代码生成模型要么直接从作为训练数据提供的输入-输出对中学习，或从交织在一起的自然

2年前
1.0k
4
2

论文笔记：CodeRetriever: Large-scale Contrastive Pre-training for Code Search

导语会议：EMNLP 2022 链接：https://arxiv.org/abs/2201.10866 1 简介代码搜索（Code search）旨在检索给定自然语言查询该功能的相关代码，现有的C

2年前
781
4
1

论文笔记：Detect-Localize-Repair: A Uniﬁed Framework for Learning to Debug with CodeT

本文正在参加人工智能创作者扶持计划导语本篇工作是Salesforce亚洲研究院在EMNLP上发表的一篇论文，主要介绍了如何利用多任务学习的方式借助CodeT5进行代码Bug的检测和修复，并发布了两

2年前
813
6
2

论文笔记：PAL: Program-aided Language Models

本文正在参加人工智能创作者扶持计划导语会议：Arxiv 2023 链接：https://arxiv.org/pdf/2211.10435.pdf 1 简介最近，大型语言模型LLM在广泛的任务上

2年前
2.7k
6
1

论文笔记：GraphCodeBERT: Pre-training Code Representations with Data Flow

本文正在参加「金石计划」导语会议：ICLR 2021 链接：https://arxiv.org/abs/2009.08366 1 简介 NLP的飞速发展促进了Code LLM的广泛研究，然而，以前

2年前
1.3k
3
1

论文笔记：DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation

导语 DS-1000是专注于数据科学领域的NL2Code数据集，也是最近发布的新文章，这里简要记录。会议：Arxiv 2022 链接：https://arxiv.org/abs/2211.11501

2年前
2.6k
4
评论

论文笔记：When Neural Model Meets NL2Code: A Survey

导语最近调研到一篇NL2Code领域比较全面的综述文章，是上个月挂到Arxiv的，总结了很多最新的内容，这篇论文涉及的方面还算是比较广，然而文章稍有冗余，给人感觉像是在凑字数撑篇幅，很多关键的地方又

2年前
2.5k
4
评论

论文笔记：The Pile: An 800GB Dataset of Diverse Text for Language Modeling

导语会议：Arxiv 2020 链接：https://arxiv.org/abs/2101.00027 1 简介随着NLP领域不断扩大语言模型训练规模，对高质量海量文本数据的需求将持续增长。大多数

2年前
6.4k
7
评论

论文笔记：The Stack: 3 TB of permissively licensed source code

导语本文介绍了Text-to-Code领域最近的一篇数据集文章，这是由Huggingface发布的一个拥有30种编程语言的3.1TB数据规模的代码预训练语料。会议：Arxiv 2022 链接：ht

2年前
4.3k
6
2

论文笔记：CodeSearchNet Challenge Evaluating the State of Semantic Code Search

导语本文记录了GitHub 团队在2019年发布的CodeSearchNet 语料库论文的学习笔记，该语料库旨在为代码搜索领域提供基准数据集，提升代码搜索结果的质量。会议：Arxiv 2019 链

2年前
2.7k
5
1