大语言模型

大语言模型

大语言模型

Large Language Model（LLM）相关的笔记、博客、代码资源整理

等 9 人订阅共44篇文章创建于2023-04-21

Phi-2：小型语言模型令人惊人的能力

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

1年前
728
2
评论

Phi-2：小型语言模型令人惊人的能力

高质量数据至关重要：phi-1.5论文笔记

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，本系列博客将沿着最

1年前
709
3
评论

高质量数据至关重要：phi-1.5论文笔记

高质量数据is all you need：Textbooks Are All You Need论文笔记

导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型，旨在实现“小而精”的目标，能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前，已经发布到了phi-3模型，接下来的几篇博客将

1年前
761
4
评论

高质量数据is all you need：Textbooks Are All You Need论文笔记

Llama 3问世：迄今为止的最强开源大语言模型

导语最近Meta发布了其研发的第三代开源大语言模型Llama 3，并宣称Llama 3为迄今为止的最强开源大语言模型，本文对其进行简要学习记录。若想了解之前版本的Llama模型，可参考我之前写的论文

1年前
530
3
评论

Llama 3问世：迄今为止的最强开源大语言模型

DAIL-SQL：LLM在Text-to-SQL任务中的详细评估

导语本文聚焦于利用LLMs进行Text-to-SQL任务，并指出缺乏系统性基准测试限制了有效、高效和经济的LLM-based Text-to-SQL解决方案的发展。研究者首先系统地比较了现有的提示工

1年前
1.9k
5
4

DAIL-SQL：LLM在Text-to-SQL任务中的详细评估

论文笔记：SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data

导语本文提出了SQLPrompt，通过创新的Prompt设计、基于执行一致性的解码策略，以及混合不同格式的Prompt和不同LLMs输出的方式，提高了LLM在Few-shot In-context

1年前
1.0k
4
评论

论文笔记：SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data

从领域外到领域内：LLM在Text-to-SQL任务中的演进之路

导语本文介绍了ODIS框架，这是一种新颖的Text-to-SQL方法，它结合了领域外示例和合成生成的领域内示例，以提升大型语言模型在In-context Learning中的性能。标题：Selec

1年前
1.2k
6
1

从领域外到领域内：LLM在Text-to-SQL任务中的演进之路

LLM少样本示例的上下文学习在Text-to-SQL任务中的探索

导语本文探索了如何通过各种提示设计策略，来增强大型语言模型（LLMs）在Few-shot In-context Learning中的文本到SQL转换能力。通过使用示例SQL查询的句法结构来检索演示示

1年前
783
3
1

LLM少样本示例的上下文学习在Text-to-SQL任务中的探索

论文笔记：Code Llama: Open Foundation Models for Code

导语 Code Llama是开源模型Llama 2在代码领域的一个专有模型，作者通过在代码数据集上进行进一步训练得到了了适用于该领域的专有模型，并在测试基准中超过了同等参数规模的其他公开模型。链接：

1年前
1.0k
5
1

论文笔记：Code Llama: Open Foundation Models for Code

Text-to-SQL任务中的思维链（Chain-of-thought）探索

导语在探索LLM在解决Text-to-SQL任务中的潜能时，本文提出了一种创新的‘问题分解’Prompt格式，结合每个子问题的表列信息，实现了与顶尖微调模型（RASAT+PICARD）相媲美的性能。

1年前
1.3k
5
评论

Text-to-SQL任务中的思维链（Chain-of-thought）探索

Self-evolve——基于大语言模型的代码演进框架

导语本研究提出了一个名为Self-evolve的框架，它旨在通过大型语言模型（LLMs）实现代码生成的进化。这一框架在Text-to-Code任务中引入了一种全新的处理流程，以提高LLMs在代码生成

1年前
705
5
1

Self-evolve——基于大语言模型的代码演进框架

从生成到调试：大型语言模型的自我演进之旅

导语大型语言模型（LLMs）现在已成为代码生成的重要工具。然而，这些模型面临一个关键挑战：如何确保一次性生成的代码具有高质量。传统方法依赖于生成多个代码样本并从中选择最佳选项，但这种方法往往忽略了代

1年前
494
4
3

从生成到调试：大型语言模型的自我演进之旅

论文笔记：Efﬁcient Training of Language Models to Fill in the Middle

导语 Decoder-only的模型只能从左向右看，无法利用双向信息完成填空等操作，本文是OpenAI最早提出使用Fill-in-the-model到Autoregressive形式的模型中的文章，启

1年前
1.2k
4
1

论文笔记：Efﬁcient Training of Language Models to Fill in the Middle

论文笔记：Llama 2: Open Foundation and Fine-Tuned Chat Models

导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本，该模型已公开发布，可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。链接：https://arxiv.org/a

1年前
1.0k
5
5

论文笔记：Llama 2: Open Foundation and Fine-Tuned Chat Models

超越开源与闭源Code LLMs！——WizardCoder，一款Code Evol-Instruct tuning的代码生成模型

我正在参加「掘金·启航计划」导语这个工作的整体思路比较简洁，可以认为就是将之前一篇论文（WizardLM）中提出的Evol-instruct的思想应用到了Code LLM领域（之前是通用领域），整

2年前
3.8k
2
1

大型代码语言模型的项目级提示生成（Repository-Level Prompt Generation for Code LLM）

我正在参加「掘金·启航计划」导语本文介绍了如何从存储库中获取对大型代码语言模型进行代码生成有帮助的Prompt的一些探索，整体过程比较朴素，就是使用一些规则或者设计网络选取存储库中的内容，但效果惊

2年前
1.9k
4
1

论文笔记：Scaling Instruction-Finetuned Language Models

导语会议：Arxiv 2023 链接：https://arxiv.org/pdf/2210.11416.pdf 1 简介人工智能的一个重要目标是开发具有好的泛化性能的模型。在自然语言处理(NLP)

2年前
1.3k
4
1

论文笔记：StarCoder : May The Source Be With You !

导语这篇工作是BigCode社区继SantaCoder后的最新工作，作者发布了具有15.5B参数及8K上下文长度的代码大模型StarCoder，StarCoder模型优于支持多种编程语言的每个开放的

2年前
1.4k
3
评论

Alpaca-lora代码实战

导语之前的几篇博客介绍了Meta开源的大模型LLaMA（https://juejin.cn/post/7224369270141354043 ）以及斯坦福研究团队在LLaMA-7B基础上训练得到的堪

2年前
1.4k
3
评论

论文笔记：Toolformer: Language Models Can Teach Themselves to Use Tools

导语 Toolformer这篇论文尝试让LLM也可以使用工具，调用各种API来完成相应的任务。会议：Arxiv 2023 链接：https://arxiv.org/abs/2302.04761 1

2年前
2.8k
5
3