Transform底层理论学习

Transform底层理论学习

Transform底层理论学习

Transform算法实现以及Infra功能相关的学习笔记。

暂无订阅共5篇文章创建于2026-02-14

从向量到文字：Transformer 的预测与输出（LM Head）

在经过 $N$ 层 Decoder 的复杂思考（Attention, MLP, MoE）后，模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。一

11小时前
15
点赞
评论

从“全能大脑”到“专家集群”：MLP 与 MoE 架构深度白皮书

在大语言模型（LLM）的 Decoder Block 中，如果说 Attention 负责信息的社交与分发，那么 MLP（及其演进版 MoE）则负责信息的内化与推理。它是模型真正的“知识仓库”。第一

11小时前
6
点赞
评论

Deepseek技术深挖：Multi-head Latent Attention (MLA) 全解析

一、技术背景：KV Cache 的“维度灾难” 在标准 Transformer 或 GQA 架构中，随着上下文长度和模型维度的增加，KV Cache 成为系统的头号性能杀手：显存占用量 (VRAM

11小时前
5
点赞
评论

Transform 注意力机制：多头注意力、KV Cache、PagedAttention、FlashAttention

一、注意力机制：多维语义的并行构建注意力机制是 Transformer 的灵魂，其核心任务是在海量序列中实现高价值特征的选择性聚合。 1.1 核心公式与参数定义 $$\text{Attention

12小时前
6
点赞
评论

Transformer 位置编码：从数学原理到工程实战

1. 核心公式与参数图谱位置编码（PE）的本质是为模型提供一套坐标系。我们将 $pos$（词位置）和 $i$（维度索引）作为变量，通过不同的函数注入向量。 A. Sinusoidal PE (叠加式

15小时前
6
点赞
评论