首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
大语言模型
Q同学
创建于2023-04-21
订阅专栏
Large Language Model(LLM)相关的笔记、博客、代码资源整理
等 9 人订阅
共44篇文章
创建于2023-04-21
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Phi-2:小型语言模型令人惊人的能力
导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型,旨在实现“小而精”的目标,能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前,已经发布到了phi-3模型,本系列博客将沿着最
高质量数据至关重要:phi-1.5论文笔记
导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型,旨在实现“小而精”的目标,能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前,已经发布到了phi-3模型,本系列博客将沿着最
高质量数据is all you need:Textbooks Are All You Need论文笔记
导语 phi-系列模型是微软研究团队推出的轻量级人工智能模型,旨在实现“小而精”的目标,能够实现在低功耗设备上例如智能手机和平板电脑上部署运行。截止目前,已经发布到了phi-3模型,接下来的几篇博客将
Llama 3问世:迄今为止的最强开源大语言模型
导语 最近Meta发布了其研发的第三代开源大语言模型Llama 3,并宣称Llama 3为迄今为止的最强开源大语言模型,本文对其进行简要学习记录。若想了解之前版本的Llama模型,可参考我之前写的论文
DAIL-SQL:LLM在Text-to-SQL任务中的详细评估
导语 本文聚焦于利用LLMs进行Text-to-SQL任务,并指出缺乏系统性基准测试限制了有效、高效和经济的LLM-based Text-to-SQL解决方案的发展。研究者首先系统地比较了现有的提示工
论文笔记:SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data
导语 本文提出了SQLPrompt,通过创新的Prompt设计、基于执行一致性的解码策略,以及混合不同格式的Prompt和不同LLMs输出的方式,提高了LLM在Few-shot In-context
从领域外到领域内:LLM在Text-to-SQL任务中的演进之路
导语 本文介绍了ODIS框架,这是一种新颖的Text-to-SQL方法,它结合了领域外示例和合成生成的领域内示例,以提升大型语言模型在In-context Learning中的性能。 标题:Selec
LLM少样本示例的上下文学习在Text-to-SQL任务中的探索
导语 本文探索了如何通过各种提示设计策略,来增强大型语言模型(LLMs)在Few-shot In-context Learning中的文本到SQL转换能力。通过使用示例SQL查询的句法结构来检索演示示
论文笔记:Code Llama: Open Foundation Models for Code
导语 Code Llama是开源模型Llama 2在代码领域的一个专有模型,作者通过在代码数据集上进行进一步训练得到了了适用于该领域的专有模型,并在测试基准中超过了同等参数规模的其他公开模型。 链接:
Text-to-SQL任务中的思维链(Chain-of-thought)探索
导语 在探索LLM在解决Text-to-SQL任务中的潜能时,本文提出了一种创新的‘问题分解’Prompt格式,结合每个子问题的表列信息,实现了与顶尖微调模型(RASAT+PICARD)相媲美的性能。
Self-evolve——基于大语言模型的代码演进框架
导语 本研究提出了一个名为Self-evolve的框架,它旨在通过大型语言模型(LLMs)实现代码生成的进化。这一框架在Text-to-Code任务中引入了一种全新的处理流程,以提高LLMs在代码生成
从生成到调试:大型语言模型的自我演进之旅
导语 大型语言模型(LLMs)现在已成为代码生成的重要工具。然而,这些模型面临一个关键挑战:如何确保一次性生成的代码具有高质量。传统方法依赖于生成多个代码样本并从中选择最佳选项,但这种方法往往忽略了代
论文笔记:Efficient Training of Language Models to Fill in the Middle
导语 Decoder-only的模型只能从左向右看,无法利用双向信息完成填空等操作,本文是OpenAI最早提出使用Fill-in-the-model到Autoregressive形式的模型中的文章,启
论文笔记:Llama 2: Open Foundation and Fine-Tuned Chat Models
导语 Llama 2 是之前广受欢迎的开源大型语言模型 LLaMA 的新版本,该模型已公开发布,可用于研究和商业用途。本文记录了阅读该论文的一些关键笔记。 链接:https://arxiv.org/a
超越开源与闭源Code LLMs!——WizardCoder,一款Code Evol-Instruct tuning的代码生成模型
我正在参加「掘金·启航计划」 导语 这个工作的整体思路比较简洁,可以认为就是将之前一篇论文(WizardLM)中提出的Evol-instruct的思想应用到了Code LLM领域(之前是通用领域),整
大型代码语言模型的项目级提示生成(Repository-Level Prompt Generation for Code LLM)
我正在参加「掘金·启航计划」 导语 本文介绍了如何从存储库中获取对大型代码语言模型进行代码生成有帮助的Prompt的一些探索,整体过程比较朴素,就是使用一些规则或者设计网络选取存储库中的内容,但效果惊
论文笔记:Scaling Instruction-Finetuned Language Models
导语 会议:Arxiv 2023 链接:https://arxiv.org/pdf/2210.11416.pdf 1 简介 人工智能的一个重要目标是开发具有好的泛化性能的模型。在自然语言处理(NLP)
论文笔记:StarCoder : May The Source Be With You !
导语 这篇工作是BigCode社区继SantaCoder后的最新工作,作者发布了具有15.5B参数及8K上下文长度的代码大模型StarCoder,StarCoder模型优于支持多种编程语言的每个开放的
Alpaca-lora代码实战
导语 之前的几篇博客介绍了Meta开源的大模型LLaMA(https://juejin.cn/post/7224369270141354043 )以及斯坦福研究团队在LLaMA-7B基础上训练得到的堪
论文笔记:Toolformer: Language Models Can Teach Themselves to Use Tools
导语 Toolformer这篇论文尝试让LLM也可以使用工具,调用各种API来完成相应的任务。 会议:Arxiv 2023 链接:https://arxiv.org/abs/2302.04761 1
下一页