首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
树獭叔叔
掘友等级
Agent
|
前阿里巴巴 |现AI初创
正在努力学习吸收最前沿的AI知识(算法-工程-产品)
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2.8K
文章 2.8K
沸点 29
赞
2.8K
返回
|
搜索文章
最新
热门
深度解析 GRPO:DeepSeek R1 背后“悟道”的逻辑引擎
在 AI 对齐(Alignment)的进化史上,如果说 RLHF 是初代的“导师制”,DPO 是现代的“对比法”,那么 GRPO 就是一种全新的**“演化论”**。它是 DeepSeek 推理模型(R
Transformer 的稳健基石:残差连接与 Pre-LN 深度解析
在训练拥有成百上千层的深层神经网络(如 GPT-4, DeepSeek)时,最核心的挑战不是算力不够,而是梯度如何稳定地传回底层。残差连接与 Pre-LN 结构的组合,正是解决这一难题的工业标准。 一
大模型行为塑造:SFT 与 LoRA 深度解析
如果说**预训练(Pre-train)**是让模型在图书馆里读万卷书,那么 SFT(有监督微调) 就是教模型如何通过考试、如何与人沟通,而 LoRA 则是完成这一过程最经济高效的“手术刀”。 一、 S
大模型对齐终极指南:RLHF 与DPO
RLHF 是大模型通往“人类智能”的必经之路。它不仅仅是微调,更是一场关于概率、偏好与约束的精密实验。 一、 RLHF 的宏观蓝图:从“复读机”到“逻辑专家” 在 SFT 阶段,模型只是在模仿。但人类
从向量到文字:Transformer 的预测与输出(LM Head)
在经过 $N$ 层 Decoder 的复杂思考(Attention, MLP, MoE)后,模型最终需要将抽象的数学向量转化为人类可读的文字。这个过程主要发生在模型的“输出头”——LM Head。 一
从“全能大脑”到“专家集群”:MLP 与 MoE 架构深度白皮书
在大语言模型(LLM)的 Decoder Block 中,如果说 Attention 负责信息的社交与分发,那么 MLP(及其演进版 MoE)则负责信息的内化与推理。它是模型真正的“知识仓库”。 第一
Deepseek技术深挖:Multi-head Latent Attention (MLA) 全解析
一、 技术背景:KV Cache 的“维度灾难” 在标准 Transformer 或 GQA 架构中,随着上下文长度和模型维度的增加,KV Cache 成为系统的头号性能杀手: 显存占用量 (VRAM
Transform 注意力机制:多头注意力、KV Cache、PagedAttention、FlashAttention
一、 注意力机制:多维语义的并行构建 注意力机制是 Transformer 的灵魂,其核心任务是在海量序列中实现高价值特征的选择性聚合。 1.1 核心公式与参数定义 $$\text{Attention
Transformer 位置编码:从数学原理到工程实战
1. 核心公式与参数图谱 位置编码(PE)的本质是为模型提供一套坐标系。我们将 $pos$(词位置)和 $i$(维度索引)作为变量,通过不同的函数注入向量。 A. Sinusoidal PE (叠加式
GraphRAG 核心原理:如何构建图与如何检索
概述 GraphRAG 是一个基于知识图谱的智能问答系统。它的核心思想是:先把文档转换成一张"知识地图"(知识图谱),然后在这张地图上查找答案。本文档用通俗易懂的方式,详细解释 GraphRAG 是如
下一页
个人成就
优秀创作者
文章被点赞
2,531
文章被阅读
162,307
掘力值
8,622
关注了
87
关注者
175
收藏集
2
关注标签
8
加入于
2022-04-27