首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
mwq30123
掘友等级
Android工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
46
文章 46
沸点 0
赞
46
返回
|
搜索文章
最新
热门
从傅里叶变换到 RoPE:解构位置编码的数学灵魂
从傅里叶变换到 RoPE:解构位置编码的数学灵魂 旋转位置编码 (RoPE) 的天才之处,并不仅仅在于它使用了 sin 和 cos 函数。它真正的革命性在于,它将傅里叶变换的“时移定理” (Time-
位置编码的技术演进线路:从绝对到相对,再到几何一致性
本文系统梳理了 Transformer 位置编码的技术演进路径: 从 正弦余弦绝对位置编码 到旋转位置编码
旋转位置编码RoPE:用旋转艺术,解开 Transformer 的位置之谜
位置编码RoPE:用旋转艺术,解开 Transformer 的位置之谜 在现代大型语言模型(LLM)的宏伟殿堂中,从 PaLM、Llama 到 GPT-NeoX,一个共同的基石在支撑着它们对序列顺序的
RLHF-奖励模型RM 的“引擎”:Pairwise Loss 梯度计算详解
RLHF-奖励模型RM 的“引擎”:Pairwise Loss 梯度计算详解 在上一篇文章中,我们介绍了奖励模型 (RM) 是 RLHF 的“指南针”,它通过 Pairwise Ranking Los
RLHF :深入解析奖励模型 (Reward Model)
GPT-RLHF :深入解析奖励模型 (Reward Model) 从 ChatGPT 到 Claude,再到各种开源大模型,它们惊艳表现的背后,除了不断增长的参数规模,还有一个至关重要的技术——基于
GPT监督微调SFT:在损失计算中屏蔽指令和填充 Token
GPT监督微调SFT:在损失计算中屏蔽指令和填充 Token 1. 概述 在对自回归(Causal)语言模型(如 GPT、Llama)进行监督微调(Supervised Fine-Tuning, SF
GPT-2 中的 Pre-Layer Normalization (Pre-LN) 架构详解
GPT-2 中的 Pre-Layer Normalization (Pre-LN) 架构详解 1. 概述 Pre-Layer Normalization (Pre-LN) 是一种对原始 Transfo
GPT-2 中的残差权重初始化
GPT-2 中的残差权重初始化 1. 概述 在深度残差网络中,每一层的输出都会被加到其输入上。如果不对这些层的权重进行特殊处理,随着网络深度的增加,残差路径上累加的信号方差可能会不断增大,导致数值不稳
Transformer : 深度神经网络中的残差连接 (Residual Connection)
** Transformer:深度神经网络中的残差连接 (Residual Connection)** 1. 概述 随着深度学习的发展,神经网络的深度不断增加,以期获得更强的表达能力。然而,简单的堆叠
Transformer :前馈网络 (FFN) 深度解析
Transformer 前馈网络 (FFN) 深度解析 1. 概述与引言 前馈网络(Feed-Forward Network, FFN),在现代深度学习架构中,特指一个由两个线性变换层与一个非线性激活
下一页
个人成就
文章被点赞
241
文章被阅读
144,245
掘力值
3,451
关注了
20
关注者
83
收藏集
2
关注标签
6
加入于
2017-10-23