首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型
Tw_xxxx
创建于2024-11-15
订阅专栏
大模型
暂无订阅
共24篇文章
创建于2024-11-15
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Prompt Engineering
概述 提示工程(Prompt Engineering),是指如何针对当前任务生成prompt模板,在不更新模型权重的情况下与 LLM 交互引导其行为以获得所需结果。在提示工程中,任务的描述会被嵌入到输
PaLM
重要结论 模型规模带来的模型能力的提升还远没有达到上限; 通过思维链(chain of thought prompting)方式让模型生成自然语言来解释其预测的方式对模型是有益的,以便更好地理解模型为
LLaMA系列
LLaMA 论文链接 核心思想 大部分用户没有训练LLM的资源,更多的是拿着训好的LLM来推理。首选的模型应该不是训练最快的,而应该是推理最快的小LLM。 摘要 LLaMA(Large Languag
GPT系列
参数量对比 模型对比 GPT-1 论文链接 核心思路: 在大量无标记数据集上训练 Transformer 的 Decoders 来做 NLG (语言生成),得到优秀的生成模型。然后根据下游任务微调(f
GLM系列
背景 GLM的核心是:自回归空白填充(Autoregressive Blank Infilling) Prefix LM 架构 技术原理 GLM 在只使用 Transformer 编码器的情况下,自定
CodeGeeX
概述 CodeGeeX,是一个具有130亿个参数的多语言模型,用于代码生成,在23种编程语言的8500亿个token上进行了预训练,具有8K的上下文窗口 CodeGeeX的特点:除了代码生成和代码补全
BLOOM
重要结论 在训练语料中包含代码可以提高模型处理自然语言任务的准确率。 侧重训练一个规模和 GPT-3 一样的多语言语言模型 使用了ALiBi Positional Embeddings 位置嵌入 在嵌
知识图谱结合大模型
研究动机 大语言模型是黑盒模型,通常无法捕获和访问事实知识。相比之下,知识图谱(KG)、维基百科和花谱等都是结构化知识模型,显式存储丰富的事实知识。知识图谱可以通过提供外部知识进行推理和解释来增强大语
长文本解决方法
论文链接 概述 尽管LLMs在推动人工智能方向上取得了显著成就,但在处理长文本方面仍面临资源限制和效率问题。 提出了一系列针对长文本优化的Transformer架构改进方法,包括高效的注意力机制、长期
预训练模型
概述 在 Transformer 作为特征抽取器基础上,选定合适的模型结构,通过某种自监督学习任务,逼迫 Transformer 从大量无标注的自由文本中学习语言知识。这些语言知识以模型参数的方式,存
混合专家(Mixture of Experts)
概述 MoE 已经变得十分普遍,新的大型语言模型:GPT-4、Gemini 1.5、Mixtral 8x7B 或 Jamba 都是 MoE 模型。 知识的稀疏性 MoE(Mixture of Expe
大语言模型的涌现能力
什么是大模型的涌现能力 第一类任务表现出伸缩法则:这类任务一般是知识密集型任务。随着模型规模的不断增长,任务效果也持续增长,说明这类任务对大模型中知识蕴涵的数量要求较高。 第二类任务表现出涌现能力:这
大模型训练优化
并行化 数据并行(Data Parallelism) 在数据并行训练中,数据集被分割成几个碎片,每个碎片被分配到一个设备上。这相当于沿批次(Batch)维度对训练过程进行并行化。每个设备将持有一个完整
大模型训练流程
参考链接 预训练阶段(Pretraining Stage) Pretraining 的思路很简单,就是输入一堆文本,让模型做 Next Token Prediction 的任务 数据源采样 通过「数据
大模型显存分析
Collective Operations Broadcast:将一个节点上的数据广播到集群内所有的节点 Scatter: 将数据的进行切片再分发给集群内所有的节点 Gather:可以在集群内把多个节
大模型微调
Prefix Tuning 人工设计的 prompt 中那些对应自然语言的真实 token 要经过嵌入层,被向量化得到的 token 是离散的,得到的结果大概率是次优的。相较而言,连续化的 prefi
大模型外推技术
什么是大模型外推性 外推性是指大模型在训练时和预测时的输入长度不一致,导致模型的泛化能力下降的问题。例如,如果一个模型在训练时只使用了 512 个 token 的文本,那么在预测时如果输入超过 512
大模型推理优化技术
推理过程 推理会分成 prefill 和 decoding 两个阶段。每一个请求发起后产生的推理过程都会先经历一个 Prefill 过程,prefill 过程会计算用户所有的输入,并生成对应的 KV
大模型推理采样策略
概述 进行不同的采样策略可以对生成文本的多样性和质量进行调控,以满足不同的需求和应用场景。通过选择不同的采样策略,可以平衡生成文本的多样性和质量。贪婪采样适用于需要高准确性的任务,而温度采样、Top-
大模型量化技术
量化的目的 是为了减少计算时间和计算能耗 。在一些场景下对能耗和时间的要求,要高于模型的指标,所以在这种情况下量化是一个必然的选择。 量化的定义 量化一般是指将 F32 数据映射成 int8 的数据。
下一页