首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型学习笔记
树獭叔叔
创建于2026-02-14
订阅专栏
Transform算法实现以及Infra功能相关的学习笔记。
暂无订阅
共22篇文章
创建于2026-02-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
Transform 注意力机制:多头注意力、KV Cache、PagedAttention、FlashAttention
一、 注意力机制:多维语义的并行构建 注意力机制是 Transformer 的灵魂,其核心任务是在海量序列中实现高价值特征的选择性聚合。 1.1 核心公式与参数定义 $$\text{Attention
Transformer 位置编码:从数学原理到工程实战
1. 核心公式与参数图谱 位置编码(PE)的本质是为模型提供一套坐标系。我们将 $pos$(词位置)和 $i$(维度索引)作为变量,通过不同的函数注入向量。 A. Sinusoidal PE (叠加式