首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
树獭叔叔
掘友等级
Agent |后端
|
前阿里巴巴 |现AI初创
正在努力学习吸收最前沿的AI知识(算法 AND 工程 AND 产品)
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2.8K
文章 2.8K
沸点 29
赞
2.8K
返回
|
搜索文章
最新
热门
07-大模型的"基础教育":预训练如何赋予模型语言能力?
什么是预训练? 在上一章中,我们学习了训练的基本概念:前向传播、反向传播、梯度下降。现在让我们聚焦于大模型训练的第一阶段:预训练(Pre-training)。 定义 预训练(Pre-training)
06-大模型如何"学习":从梯度下降到AdamW优化器
大模型如何"学习":从梯度下降到AdamW优化器 引言:什么是"学习"? 在前面的章节中,我们学习了Transformer的各个组件:注意力机制、MLP、残差连接、LM Head等。但有一个核心问题我
05-从隐藏向量到文字:LM Head如何输出"下一个词"?
回顾:大模型的完整流程 在前面的章节中,我们学习了Transformer的各个组件。现在让我们回顾一下完整流程: $$ \begin{aligned} &\text{输入:} \quad \text{
03-大模型的非线性变化:从MLP到MOE,大模型2/3的参数都在这里
为什么需要非线性变化? 在前面的章节中,我们学习了注意力机制和位置编码。但如果仔细观察,你会发现一个问题: 注意力机制全是线性变换! 回顾注意力计算: $$ \begin{aligned} Q &=
02-大模型位置编码详解:大模型如何理解顺序?
注意力机制的"位置盲区" 在上一章中,我们学习了注意力机制如何通过QKV矩阵计算Token之间的相关性。但这里有一个严重的问题: 注意力机制天生是"位置不敏感"的! 问题演示 考虑以下两个句子: "猫
01-注意力机制详解:大模型如何决定"该关注什么"?
从Token预测说起 大语言模型的核心工作原理非常简单:给定前面的0到n个Token,预测第n+1个Token是什么。 举个例子: 输入:"今天天气" 模型需要预测下一个词可能是:"很好"、"不错"、
大模型微调底层动力学:从“心法”到“火候”
一、 角色分工:谁在操纵模型? 在微调的战场上,每一个术语都有它不可替代的性格: 损失函数 (Loss): 它是**“毒舌判官”**。它拿着标准答案,冷酷地告诉模型:“你离正确答案还差 10.5 分”
⚡ 混合精度训练:大模型微调的“数字魔法”与避坑指南
在训练 7B、70B 甚至更大的模型时,如何让显存利用率翻倍、速度提升数倍?答案就在 FP16 与 BF16 的取舍之间。 一、 核心概念:数字的“重量” 计算机存储数字需要占据空间(位/bit)。精
🧠 深度解析:灾难性遗忘与回放机制 (Catastrophic Forgetting)
在大模型从“通用天才”向“领域专家”进化的过程中,最危险的敌人就是灾难性遗忘。本文将拆解其底层逻辑与工业界对抗遗忘的实战手段。 一、 什么是灾难性遗忘? 灾难性遗忘是指模型在学习新任务(如:医学诊断)
💎 大模型数据质量工程 (Data Curation) 全实战手册
在微调领域,“Garbage In, Garbage Out” (GIGO) 是永恒的真理。本手册旨在教你如何将原始、嘈杂的数据炼化为支撑大模型进化的高纯度“燃料”。 一、 第一阶段:深度清洗(过滤毒
下一页
个人成就
优秀创作者
文章被点赞
2,495
文章被阅读
156,797
掘力值
7,866
关注了
87
关注者
164
收藏集
2
关注标签
8
加入于
2022-04-27