首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
大模型学习笔记
树獭叔叔
创建于2026-02-14
订阅专栏
Transform算法实现以及Infra功能相关的学习笔记。
暂无订阅
共22篇文章
创建于2026-02-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
大模型中的KL散度:从理论到实践的完整指南
大模型中的KL散度:从理论到实践的完整指南 目录 什么是KL散度 KL散度的数学本质 在大模型中的核心应用 RLHF中的KL散度 知识蒸馏中的KL散度 实现细节与优化技巧 常见问题与解决方案 什么是K
大模型微调底层动力学:从“心法”到“火候”
一、 角色分工:谁在操纵模型? 在微调的战场上,每一个术语都有它不可替代的性格: 损失函数 (Loss): 它是**“毒舌判官”**。它拿着标准答案,冷酷地告诉模型:“你离正确答案还差 10.5 分”
⚡ 混合精度训练:大模型微调的“数字魔法”与避坑指南
在训练 7B、70B 甚至更大的模型时,如何让显存利用率翻倍、速度提升数倍?答案就在 FP16 与 BF16 的取舍之间。 一、 核心概念:数字的“重量” 计算机存储数字需要占据空间(位/bit)。精
🧠 深度解析:灾难性遗忘与回放机制 (Catastrophic Forgetting)
在大模型从“通用天才”向“领域专家”进化的过程中,最危险的敌人就是灾难性遗忘。本文将拆解其底层逻辑与工业界对抗遗忘的实战手段。 一、 什么是灾难性遗忘? 灾难性遗忘是指模型在学习新任务(如:医学诊断)
💎 大模型数据质量工程 (Data Curation) 全实战手册
在微调领域,“Garbage In, Garbage Out” (GIGO) 是永恒的真理。本手册旨在教你如何将原始、嘈杂的数据炼化为支撑大模型进化的高纯度“燃料”。 一、 第一阶段:深度清洗(过滤毒
🚀 大模型压缩与加速全手册:量化、蒸馏与剪枝
在工业界,大模型的落地是一场“既要智商,又要速度”的博弈。本手册详细拆解了实现这一目标的三个核心技术路径。 一、 量化 (Quantization):数字位宽的降维打击 量化是改变参数的存储格式与运算
💎 深度专题:大模型训练稳定性与 FP8 混合精度革命
在万亿参数模型的炼制过程中,**数值稳定性(Numerical Stability)**是决定训练成败的生死线。本方案深度解析如何通过精度调度,在压榨硬件算力的同时确保模型不“炸仓”。 一、 数值格式
🏎️ 投机采样 (Speculative Decoding):大模型推理的并行外挂
在自回归生成(Autoregressive Generation)模式下,大模型必须“逐字输出”,这导致了巨大的计算浪费。投机采样通过博弈论与并行计算的巧思,打破了这一瓶颈,实现了不损失精度的推理加速
进阶专题:微调陷阱、对齐副作用及其工业级解决方案
微调(Fine-tuning)是将大模型从“通才”转化为“专才”的关键。但这一过程并非参数的简单叠加,而是一场关于“保留旧智力”与“学习新偏好”的博弈。本章将系统梳理微调中的四大隐性陷阱,并给出目前工
工程实战:梯度累加、Batch Size 与数据组织详解
在显存有限的条件下,如何通过工程手段实现大厂级的训练效果?本篇文档拆解了“空间换时间”的全部核心逻辑。 一、 Batch Size:模型“见识”的宽度 Batch Size(批大小) 是指模型在每一次
📉 大模型量化 (Quantization) 全维度解析:从哲学到算力
量化不仅是一种“压缩技术”,更是一场关于计算效率与信息精度的深刻博弈。其核心思想是:用更粗糙但更高效的数值系统,去模拟复杂的智能行为。 一、 量化的数学哲学:映射与格点化 量化的本质是将神经网络中连续
深度拆解:Weight Decay 与参数正则化的博弈论
在模型训练中,如果说损失函数是“前进的拉力”,那么权重衰减(Weight Decay)就是“收敛的压力”。它确保模型在变得“聪明”的同时,依然保持“简洁”。 --- ## 一、 参数 $\thet
高级微调调优:NEFTune 鲁棒性增强与 RoPE 长度外推
在基础的参数微调(LoRA)之后,为了进一步提升模型在复杂场景下的表现——例如更聪明的对话响应和更长文档的处理能力,我们需要引入更精细的数学调优手段。 --- ## 一、 NEFTune:给 Em
深度解析 GRPO:DeepSeek R1 背后“悟道”的逻辑引擎
在 AI 对齐(Alignment)的进化史上,如果说 RLHF 是初代的“导师制”,DPO 是现代的“对比法”,那么 GRPO 就是一种全新的**“演化论”**。它是 DeepSeek 推理模型(R
Transformer 的稳健基石:残差连接与 Pre-LN 深度解析
在训练拥有成百上千层的深层神经网络(如 GPT-4, DeepSeek)时,最核心的挑战不是算力不够,而是梯度如何稳定地传回底层。残差连接与 Pre-LN 结构的组合,正是解决这一难题的工业标准。 一
大模型行为塑造:SFT 与 LoRA 深度解析
如果说**预训练(Pre-train)**是让模型在图书馆里读万卷书,那么 SFT(有监督微调) 就是教模型如何通过考试、如何与人沟通,而 LoRA 则是完成这一过程最经济高效的“手术刀”。 一、 S
大模型对齐终极指南:RLHF 与DPO
RLHF 是大模型通往“人类智能”的必经之路。它不仅仅是微调,更是一场关于概率、偏好与约束的精密实验。 一、 RLHF 的宏观蓝图:从“复读机”到“逻辑专家” 在 SFT 阶段,模型只是在模仿。但人类
从向量到文字:Transformer 的预测与输出(LM Head)
在经过 $N$ 层 Decoder 的复杂思考(Attention, MLP, MoE)后,模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。 一
从“全能大脑”到“专家集群”:MLP 与 MoE 架构深度白皮书
在大语言模型(LLM)的 Decoder Block 中,如果说 Attention 负责信息的社交与分发,那么 MLP(及其演进版 MoE)则负责信息的内化与推理。它是模型真正的“知识仓库”。 第一
Deepseek技术深挖:Multi-head Latent Attention (MLA) 全解析
一、 技术背景:KV Cache 的“维度灾难” 在标准 Transformer 或 GQA 架构中,随着上下文长度和模型维度的增加,KV Cache 成为系统的头号性能杀手: 显存占用量 (VRAM
下一页