大模型学习笔记

大模型学习笔记

大模型学习笔记

Transform算法实现以及Infra功能相关的学习笔记。

暂无订阅共22篇文章创建于2026-02-14

Transform 注意力机制：多头注意力、KV Cache、PagedAttention、FlashAttention

一、注意力机制：多维语义的并行构建注意力机制是 Transformer 的灵魂，其核心任务是在海量序列中实现高价值特征的选择性聚合。 1.1 核心公式与参数定义 $$\text{Attention

3月前
114
点赞
评论

Transformer 位置编码：从数学原理到工程实战

1. 核心公式与参数图谱位置编码（PE）的本质是为模型提供一套坐标系。我们将 $pos$（词位置）和 $i$（维度索引）作为变量，通过不同的函数注入向量。 A. Sinusoidal PE (叠加式

3月前
75
1
评论