首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
Transform底层理论学习
树獭叔叔
创建于2026-02-14
订阅专栏
Transform算法实现以及Infra功能相关的学习笔记。
暂无订阅
共5篇文章
创建于2026-02-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
从向量到文字:Transformer 的预测与输出(LM Head)
在经过 $N$ 层 Decoder 的复杂思考(Attention, MLP, MoE)后,模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。 一
从“全能大脑”到“专家集群”:MLP 与 MoE 架构深度白皮书
在大语言模型(LLM)的 Decoder Block 中,如果说 Attention 负责信息的社交与分发,那么 MLP(及其演进版 MoE)则负责信息的内化与推理。它是模型真正的“知识仓库”。 第一
Deepseek技术深挖:Multi-head Latent Attention (MLA) 全解析
一、 技术背景:KV Cache 的“维度灾难” 在标准 Transformer 或 GQA 架构中,随着上下文长度和模型维度的增加,KV Cache 成为系统的头号性能杀手: 显存占用量 (VRAM
Transform 注意力机制:多头注意力、KV Cache、PagedAttention、FlashAttention
一、 注意力机制:多维语义的并行构建 注意力机制是 Transformer 的灵魂,其核心任务是在海量序列中实现高价值特征的选择性聚合。 1.1 核心公式与参数定义 $$\text{Attention
Transformer 位置编码:从数学原理到工程实战
1. 核心公式与参数图谱 位置编码(PE)的本质是为模型提供一套坐标系。我们将 $pos$(词位置)和 $i$(维度索引)作为变量,通过不同的函数注入向量。 A. Sinusoidal PE (叠加式