transformer模型

transformer模型

transformer模型

分享 transformer 架构分析及 LLM 论文详解及推理部署的知识。

等 10 人订阅共10篇文章创建于2023-04-12

第01期 - transformer论文解读

（直到 GPT 出来之前）大多数有竞争力的神经序列转换模型都是采用编码器-解码器结构，transformer 模型也不例外。

1年前
138
点赞
评论

第01期 - transformer论文解读

transformers库快速入门

本文总结了 Transformers 的常用术语并给出详细解释，然后对 transformers 库总结了快速使用方法，并结合实例代码做分析，可当作 LLM 的快速入门学习。

2年前
3.7k
9
评论

transformers库快速入门

DeepSpeed: 通过系统优化和压缩加速大规模模型推理和训练

我们都知道大语言模型（LLM）的计算成本极高，且在许多实际场景中都会有响应速度太慢的问题，总结起来就是 LLM 的推理的有两个主要挑战：延迟（lateny）和成本（cost）。

2年前
3.0k
2
评论

DeepSpeed: 通过系统优化和压缩加速大规模模型推理和训练

DeepSpeed 推理: 具有定制推理内核和量化支持的多 GPU 推理

本文总结了 DeepSpeed Inference 系统的主要三个特性，如具有自适应并行性的多 GPU 推理、专为推理优化的 CUDA 内核和灵活的量化感知训练以及量化推理内核。

2年前
2.3k
1
评论

DeepSpeed 推理: 具有定制推理内核和量化支持的多 GPU 推理

BLOOM模型结构详解

BLOOM模型也是 Decoder-only 架构，但和原始 decoder 结构主要有两个区别: ALiBi Positional Embeddings 和 Embedding LayerNorm。

2年前
3.8k
2
评论

LLM背景知识总结

在自然语言处理中，Token 是指一段文本中的基本单位，通常是一个词、一个词组或者一个字符。Tokenization 是将一段文本分解为一系列的 Token 的过程。

2年前
2.1k
3
评论

大语言模型核心技术-Transformer 详解

本文详细解析了Transformer整体模型结构，并深入分析了各个layer层的原理及给出了计算公式，针对每个 layer、block 都给出了较为详细的代码实现方便深入理解网络结构。

2年前
7.7k
12
评论

大语言模型核心技术-Transformer 详解

经典transformer视觉模型总结

ViT 在 Transformer 架构的视觉模型的地位类似 ResNet模型。因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），是Transformer在CV的奠基之作。

2年前
1.8k
3
评论

经典transformer视觉模型总结

LLaMA及其子孙模型概述

本文主要从模型推理角度去总结论文，因此没有涉及到数据集处理、模型训练及试验报告的细节，只介绍了 LLaMA 模型的主要思想以及模型结构的细节，最后介绍一些基于 LLaMA finetune 的模型。

2年前
7.7k
9
评论

FasterTransformer框架速览

asterTransformer 包含 Transformer 块的高度优化版本的实现，其中包含编码器 Encoder 和解码器 Decoder部分。基于 FT 可以运行完整的编码器-解码器架构模型。

2年前
7.0k
6
评论

FasterTransformer框架速览