首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
transformers学习
用户4617575247065
创建于2025-08-01
订阅专栏
都是我觉得比较好的,图文并茂的,例子丰富的,易于理解的文章,主打一看就懂
等 1 人订阅
共5篇文章
创建于2025-08-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
举例子讲解Transformer Decoder层流程
专注讲解一个完整的、独立的Decoder架构(比如在GPT这类纯Decoder模型中)。这次用最直白的语言和具体数字例子,追踪一个词向量从输入到输出的全过程。 任务: 用Decoder
小白也能懂---Transformer中Look-Ahead Mask 的实现
我们来用最真实的计算过程拆解下三角掩码矩阵(Look-Ahead Mask)到底做了什么,如何确保预测时模型只能看前面的词,不能看自己和未来的词。我们用生成句子 “我爱吃苹果” 中第三个词
lora微调
LoRA微调技术(与Qwen3 Embedding模型相关),并用具体例子说明: 🔧 一、LoRA是什么? LoRA(低秩适应) 是一种高效微调大模型的技术。核心思想是:
sglang的KV缓存
好的,我们来用一个具体的文本生成例子,结合KV缓存的工作原理,详细解释为什么只有前缀缓存(本质是KV缓存),而不能缓存Q(Query)。我们将一步步拆解Transformer生成文本的过程。 案例背景
小白理解transformer里的前馈神经网络
## 小白也能懂的 Transformer 前馈神经网络 (FFN) 详解 想象一下你在组装一辆玩具车。Transformer 模型就像这辆车的制造工厂流水线。