首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
树獭叔叔
掘友等级
Agent
|
前阿里巴巴 |现AI初创
正在努力学习吸收最前沿的AI知识(算法-工程-产品)
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2.8K
文章 2.8K
沸点 29
赞
2.8K
返回
|
搜索文章
最新
热门
进阶专题:微调陷阱、对齐副作用及其工业级解决方案
微调(Fine-tuning)是将大模型从“通才”转化为“专才”的关键。但这一过程并非参数的简单叠加,而是一场关于“保留旧智力”与“学习新偏好”的博弈。本章将系统梳理微调中的四大隐性陷阱,并给出目前工
工程实战:梯度累加、Batch Size 与数据组织详解
在显存有限的条件下,如何通过工程手段实现大厂级的训练效果?本篇文档拆解了“空间换时间”的全部核心逻辑。 一、 Batch Size:模型“见识”的宽度 Batch Size(批大小) 是指模型在每一次
📉 大模型量化 (Quantization) 全维度解析:从哲学到算力
量化不仅是一种“压缩技术”,更是一场关于计算效率与信息精度的深刻博弈。其核心思想是:用更粗糙但更高效的数值系统,去模拟复杂的智能行为。 一、 量化的数学哲学:映射与格点化 量化的本质是将神经网络中连续
深度拆解:Weight Decay 与参数正则化的博弈论
在模型训练中,如果说损失函数是“前进的拉力”,那么权重衰减(Weight Decay)就是“收敛的压力”。它确保模型在变得“聪明”的同时,依然保持“简洁”。 --- ## 一、 参数 $\thet
高级微调调优:NEFTune 鲁棒性增强与 RoPE 长度外推
在基础的参数微调(LoRA)之后,为了进一步提升模型在复杂场景下的表现——例如更聪明的对话响应和更长文档的处理能力,我们需要引入更精细的数学调优手段。 --- ## 一、 NEFTune:给 Em
深度解析 GRPO:DeepSeek R1 背后“悟道”的逻辑引擎
在 AI 对齐(Alignment)的进化史上,如果说 RLHF 是初代的“导师制”,DPO 是现代的“对比法”,那么 GRPO 就是一种全新的**“演化论”**。它是 DeepSeek 推理模型(R
Transformer 的稳健基石:残差连接与 Pre-LN 深度解析
在训练拥有成百上千层的深层神经网络(如 GPT-4, DeepSeek)时,最核心的挑战不是算力不够,而是梯度如何稳定地传回底层。残差连接与 Pre-LN 结构的组合,正是解决这一难题的工业标准。 一
大模型行为塑造:SFT 与 LoRA 深度解析
如果说**预训练(Pre-train)**是让模型在图书馆里读万卷书,那么 SFT(有监督微调) 就是教模型如何通过考试、如何与人沟通,而 LoRA 则是完成这一过程最经济高效的“手术刀”。 一、 S
大模型对齐终极指南:RLHF 与DPO
RLHF 是大模型通往“人类智能”的必经之路。它不仅仅是微调,更是一场关于概率、偏好与约束的精密实验。 一、 RLHF 的宏观蓝图:从“复读机”到“逻辑专家” 在 SFT 阶段,模型只是在模仿。但人类
从向量到文字:Transformer 的预测与输出(LM Head)
在经过 $N$ 层 Decoder 的复杂思考(Attention, MLP, MoE)后,模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。 一
下一页
个人成就
优秀创作者
文章被点赞
2,521
文章被阅读
160,886
掘力值
8,498
关注了
87
关注者
174
收藏集
2
关注标签
8
加入于
2022-04-27