大语言模型

大语言模型

大语言模型

Large Language Model（LLM）相关的笔记、博客、代码资源整理

等 9 人订阅共47篇文章创建于2023-04-21

论文笔记：StarCoder : May The Source Be With You !

导语这篇工作是BigCode社区继SantaCoder后的最新工作，作者发布了具有15.5B参数及8K上下文长度的代码大模型StarCoder，StarCoder模型优于支持多种编程语言的每个开放的

3年前
1.7k
3
评论

Alpaca-lora代码实战

导语之前的几篇博客介绍了Meta开源的大模型LLaMA（https://juejin.cn/post/7224369270141354043 ）以及斯坦福研究团队在LLaMA-7B基础上训练得到的堪

3年前
1.6k
3
评论

论文笔记：Toolformer: Language Models Can Teach Themselves to Use Tools

导语 Toolformer这篇论文尝试让LLM也可以使用工具，调用各种API来完成相应的任务。会议：Arxiv 2023 链接：https://arxiv.org/abs/2302.04761 1

3年前
3.3k
5
3

论文笔记：LoRA: Low-Rank Adaptation of Large Language Models

导语本文介绍了学术界在资源不富裕的情况下能够玩得起大模型的一种方式：LoRA，该技术可以大大优化大模型Fine-tune所需的算力资源，最近颇受关注。会议：ICLR 2022 链接：https:/

3年前
3.1k
5
1

论文笔记：Self-Instruct: Aligning Language Model with Self Generated Instructions

导语本文介绍了如何使用LLM来大规模自动生成instruction。实验结果表明，这种数据增强方式非常有效，接下来就让我们看看具体是怎么做的吧。会议：Arxiv 链接：https://arxiv.

3年前
7.0k
6
2

Alpaca：一个健壮、可复现的指令调优模型

本文正在参加「金石计划」导语上篇博客介绍了Meta AI发布的开源大型语言模型LLaMA，本文介绍斯坦福的研究人员在LLaMA基础上基于指令微调（Instruction-tuning），仅使用约

3年前
2.0k
6
2

论文笔记：LLaMA: Open and Efficient Foundation Language Models

导语随着ChatGPT的爆火，大语言模型逐渐成为了研究热点，然而过去的大部分工作中的大语言模型LLM都是闭源的，仅提供API有偿调用，本文介绍了最近MetaAI开源的大语言模型LLaMA。会议：A

3年前
2.3k
7
2

论文笔记：LLaMA: Open and Efficient Foundation Language Models