Tw_xxxx

赞

6

|

搜索文章

4月前

主流大模型微调开源框架概述

Transformers (Hugging Face) Transformers是由Hugging Face开发的最广泛使用的NLP库之一，提供了预训练模型的访问和微调功能...

0

评论

6月前

SQL

相关知识 left join、right join和inner join的区别 left join（左连接）：左连接返回左表中的所有记录，以及右表中与左表匹配的记录。如果右...

0

评论

6月前

Pandas

定义 Pandas 的主要数据结构是 Series （一维数据）与 DataFrame（二维数据） Series 是一种类似于一维数组的对象，它由一组数据（各种 Numpy...

0

评论

1年前

Prompt Engineering

概述提示工程（Prompt Engineering），是指如何针对当前任务生成prompt模板，在不更新模型权重的情况下与 LLM 交互引导其行为以获得所需结果。在提示工...

0

评论

1年前

PaLM

重要结论模型规模带来的模型能力的提升还远没有达到上限；通过思维链（chain of thought prompting）方式让模型生成自然语言来解释其预测的方式对模型是...

0

评论

1年前

LLaMA系列

LLaMA 论文链接核心思想大部分用户没有训练LLM的资源，更多的是拿着训好的LLM来推理。首选的模型应该不是训练最快的，而应该是推理最快的小LLM。摘要 LLaMA...

0

评论

1年前

GPT系列

参数量对比模型对比 GPT-1 论文链接核心思路：在大量无标记数据集上训练 Transformer 的 Decoders 来做 NLG （语言生成），得到优秀的生成模...

0

评论

1年前

GLM系列

背景 GLM的核心是：自回归空白填充（Autoregressive Blank Infilling） Prefix LM 架构技术原理 GLM 在只使用 Transfor...

0

评论

1年前

CodeGeeX

概述 CodeGeeX，是一个具有130亿个参数的多语言模型，用于代码生成，在23种编程语言的8500亿个token上进行了预训练，具有8K的上下文窗口 CodeGeeX的...

0

评论

1年前

BLOOM

重要结论在训练语料中包含代码可以提高模型处理自然语言任务的准确率。侧重训练一个规模和 GPT-3 一样的多语言语言模型使用了ALiBi Positional Embe...

0

评论

1年前

知识图谱结合大模型

研究动机大语言模型是黑盒模型，通常无法捕获和访问事实知识。相比之下，知识图谱（KG）、维基百科和花谱等都是结构化知识模型，显式存储丰富的事实知识。知识图谱可以通过提供外部...

0

评论

1年前

长文本解决方法

论文链接概述尽管LLMs在推动人工智能方向上取得了显著成就，但在处理长文本方面仍面临资源限制和效率问题。提出了一系列针对长文本优化的Transformer架构改进方法...

0

评论

1年前

预训练模型

概述在 Transformer 作为特征抽取器基础上，选定合适的模型结构，通过某种自监督学习任务，逼迫 Transformer 从大量无标注的自由文本中学习语言知识。这些...

0

评论

1年前

混合专家（Mixture of Experts）

概述 MoE 已经变得十分普遍，新的大型语言模型：GPT-4、Gemini 1.5、Mixtral 8x7B 或 Jamba 都是 MoE 模型。知识的稀疏性 MoE（M...

0

评论

1年前

大语言模型的涌现能力

什么是大模型的涌现能力第一类任务表现出伸缩法则：这类任务一般是知识密集型任务。随着模型规模的不断增长，任务效果也持续增长，说明这类任务对大模型中知识蕴涵的数量要求较高。 ...

0

评论

1年前

大模型训练优化

并行化数据并行（Data Parallelism）在数据并行训练中，数据集被分割成几个碎片，每个碎片被分配到一个设备上。这相当于沿批次（Batch）维度对训练过程进行并...

0

评论

1年前

大模型训练流程

参考链接预训练阶段（Pretraining Stage） Pretraining 的思路很简单，就是输入一堆文本，让模型做 Next Token Prediction 的...

0

评论

1年前

大模型显存分析

Collective Operations Broadcast：将一个节点上的数据广播到集群内所有的节点 Scatter：将数据的进行切片再分发给集群内所有的节点 Gat...

0

评论

1年前

大模型微调

Prefix Tuning 人工设计的 prompt 中那些对应自然语言的真实 token 要经过嵌入层，被向量化得到的 token 是离散的，得到的结果大概率是次优的。相...

0

评论

1年前

大模型外推技术

什么是大模型外推性外推性是指大模型在训练时和预测时的输入长度不一致，导致模型的泛化能力下降的问题。例如，如果一个模型在训练时只使用了 512 个 token 的文本，那么...

0

评论

个人成就

文章被点赞 2

文章被阅读 13,567

加入于

2024-02-13