树獭叔叔

Agent | 前阿里巴巴｜现AI初创

正在努力学习吸收最前沿的AI知识（算法-工程-产品）

赞

2.8K

|

搜索文章

深度拆解：Weight Decay 与参数正则化的博弈论

在模型训练中，如果说损失函数是“前进的拉力”，那么权重衰减（Weight Decay）就是“收敛的压力”。它确保模型在变得“聪明”的同时，依然保持“简洁”。 --- ## 一、参数 $\thet

1月前
37
1
评论

高级微调调优：NEFTune 鲁棒性增强与 RoPE 长度外推

在基础的参数微调（LoRA）之后，为了进一步提升模型在复杂场景下的表现——例如更聪明的对话响应和更长文档的处理能力，我们需要引入更精细的数学调优手段。 --- ## 一、 NEFTune：给 Em

1月前
48
1
评论

深度解析 GRPO：DeepSeek R1 背后“悟道”的逻辑引擎

在 AI 对齐（Alignment）的进化史上，如果说 RLHF 是初代的“导师制”，DPO 是现代的“对比法”，那么 GRPO 就是一种全新的**“演化论”**。它是 DeepSeek 推理模型（R

1月前
100
1
评论

Transformer 的稳健基石：残差连接与 Pre-LN 深度解析

在训练拥有成百上千层的深层神经网络（如 GPT-4, DeepSeek）时，最核心的挑战不是算力不够，而是梯度如何稳定地传回底层。残差连接与 Pre-LN 结构的组合，正是解决这一难题的工业标准。一

1月前
154
2
评论

大模型行为塑造：SFT 与 LoRA 深度解析

如果说**预训练（Pre-train）**是让模型在图书馆里读万卷书，那么 SFT（有监督微调）就是教模型如何通过考试、如何与人沟通，而 LoRA 则是完成这一过程最经济高效的“手术刀”。一、 S

1月前
116
1
评论

大模型对齐终极指南：RLHF 与DPO

RLHF 是大模型通往“人类智能”的必经之路。它不仅仅是微调，更是一场关于概率、偏好与约束的精密实验。一、 RLHF 的宏观蓝图：从“复读机”到“逻辑专家” 在 SFT 阶段，模型只是在模仿。但人类

1月前
73
1
评论

从向量到文字：Transformer 的预测与输出（LM Head）

在经过 $N$ 层 Decoder 的复杂思考（Attention, MLP, MoE）后，模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。一

1月前
95
1
评论

从“全能大脑”到“专家集群”：MLP 与 MoE 架构深度白皮书

在大语言模型（LLM）的 Decoder Block 中，如果说 Attention 负责信息的社交与分发，那么 MLP（及其演进版 MoE）则负责信息的内化与推理。它是模型真正的“知识仓库”。第一

1月前
33
1
评论

Deepseek技术深挖：Multi-head Latent Attention (MLA) 全解析

一、技术背景：KV Cache 的“维度灾难” 在标准 Transformer 或 GQA 架构中，随着上下文长度和模型维度的增加，KV Cache 成为系统的头号性能杀手：显存占用量 (VRAM

1月前
52
1
评论

Transform 注意力机制：多头注意力、KV Cache、PagedAttention、FlashAttention

一、注意力机制：多维语义的并行构建注意力机制是 Transformer 的灵魂，其核心任务是在海量序列中实现高价值特征的选择性聚合。 1.1 核心公式与参数定义 $$\text{Attention

1月前
31
点赞
评论

个人成就

优秀创作者

文章被点赞 2,533

文章被阅读 162,663

掘力值 8,622

加入于

2022-04-27