首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
mwq30123
掘友等级
Android工程师
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
46
文章 46
沸点 0
赞
46
返回
|
搜索文章
mwq30123
Android工程师
·
1天前
关注
不再混淆:导数 (Derivative) 与微分 (Differential) 的本质对决
不再混淆:导数 (Derivative) 与微分 (Differential) 的本质对决 在微积分的入门阶段,很多同学会产生一种错觉:认为微分只是导数的另一种写法,或者觉...
0
评论
分享
mwq30123
Android工程师
·
1月前
关注
Anthropic 机械可解释性学习路线
Anthropic 机械可解释性学习路线 机械可解释性(Mechanistic Interpretability, MI)是一个门槛较高的领域,因为它不仅涉及代码,还涉及独...
0
评论
分享
mwq30123
Android工程师
·
1月前
关注
Cursor Tab 共享无限车
linux.do 大佬开发的,不知道啥时候就不能用了,且用且珍惜。 原文地址 Cursor 修改程序地址: Releases · wisdgod/cursor-rp 需要下...
0
评论
分享
mwq30123
Android工程师
·
1月前
关注
LLM 推理的“显存墙”与“通信墙”:从显存分布到部署原则
这是一篇基于我们之前的对话内容整合而成的深度技术文章。文章从你提供的关于“显存与带宽限制”的精辟论述出发,深入剖析了 Llama-3-70B 的实际数据,对比了 MHA 与...
0
评论
分享
mwq30123
Android工程师
·
1月前
关注
《前端项目技术文档生成器》Prompt(可复用模板)
下面提供你一份 专门为前端项目优化的《技术文档自动生成 Prompt 模板》 ,适用于: React / Vue / Angular / Svelte / Next.js ...
10
评论
分享
mwq30123
Android工程师
·
1月前
关注
揭秘 MoE 训练的“三驾马车”
揭秘 MoE 训练的“三驾马车”:一篇博客看懂 $L_{\text{main}}$, $L_{\text{balance}}$ 和 $L_{\text{router-z}}...
1
评论
分享
mwq30123
Android工程师
·
1月前
关注
MoE 负载均衡之争:为何 Mixtral 的“实用主义”胜过了“统计主义”?
MoE 负载均衡之争:为何 Mixtral 的“实用主义”胜过了“统计主义”? 在当今的大模型(LLM)领域,MoE(Mixture of Experts)架构已经成为实现...
0
评论
分享
mwq30123
Android工程师
·
1月前
关注
解密“混合专家模型” (MoE) 的全部魔法
解密“混合专家模型” (MoE) 的全部魔法 在当今大语言模型 (LLM) 的竞赛中,您一定听说过 GPT-4、Mixtral 8x7B 这样的“巨无霸”。它们之所以能在保...
1
评论
分享
mwq30123
Android工程师
·
1月前
关注
MiniMind 模型架构创新技术详解
MiniMind 模型架构创新技术详解 https://github.com/AlvinScrp/minimind/blob/master/model/model.py 一...
0
评论
分享
mwq30123
Android工程师
·
1月前
关注
从傅里叶时钟到混合尺度:解构 RoPE 位置编码的演进之路
从傅里叶时钟到混合尺度:解构 RoPE 位置编码的演进之路 摘要 自 Transformer 架构诞生以来,位置编码一直是其核心组件之一。旋转位置编码 (RoPE) 利用傅...
1
评论
分享
mwq30123
Android工程师
·
1月前
关注
从傅里叶变换到 RoPE:解构位置编码的数学灵魂
从傅里叶变换到 RoPE:解构位置编码的数学灵魂 旋转位置编码 (RoPE) 的天才之处,并不仅仅在于它使用了 sin 和 cos 函数。它真正的革命性在于,它将傅里叶变换...
0
评论
分享
mwq30123
Android工程师
·
2月前
关注
位置编码的技术演进线路:从绝对到相对,再到几何一致性
本文系统梳理了 Transformer 位置编码的技术演进路径: 从 正弦余弦绝对位置编码 到旋转位置编码...
0
评论
分享
mwq30123
Android工程师
·
2月前
关注
旋转位置编码RoPE:用旋转艺术,解开 Transformer 的位置之谜
位置编码RoPE:用旋转艺术,解开 Transformer 的位置之谜 在现代大型语言模型(LLM)的宏伟殿堂中,从 PaLM、Llama 到 GPT-NeoX,一个共同的...
0
1
分享
mwq30123
Android工程师
·
2月前
关注
RLHF-奖励模型RM 的“引擎”:Pairwise Loss 梯度计算详解
RLHF-奖励模型RM 的“引擎”:Pairwise Loss 梯度计算详解 在上一篇文章中,我们介绍了奖励模型 (RM) 是 RLHF 的“指南针”,它通过 Pairwi...
1
评论
分享
mwq30123
Android工程师
·
2月前
关注
RLHF :深入解析奖励模型 (Reward Model)
GPT-RLHF :深入解析奖励模型 (Reward Model) 从 ChatGPT 到 Claude,再到各种开源大模型,它们惊艳表现的背后,除了不断增长的参数规模,还...
0
评论
分享
mwq30123
Android工程师
·
2月前
关注
GPT监督微调SFT:在损失计算中屏蔽指令和填充 Token
GPT监督微调SFT:在损失计算中屏蔽指令和填充 Token 1. 概述 在对自回归(Causal)语言模型(如 GPT、Llama)进行监督微调(Supervised F...
0
评论
分享
mwq30123
Android工程师
·
2月前
关注
GPT-2 中的 Pre-Layer Normalization (Pre-LN) 架构详解
GPT-2 中的 Pre-Layer Normalization (Pre-LN) 架构详解 1. 概述 Pre-Layer Normalization (Pre-LN) ...
1
评论
分享
mwq30123
Android工程师
·
2月前
关注
GPT-2 中的残差权重初始化
GPT-2 中的残差权重初始化 1. 概述 在深度残差网络中,每一层的输出都会被加到其输入上。如果不对这些层的权重进行特殊处理,随着网络深度的增加,残差路径上累加的信号方差...
0
评论
分享
mwq30123
Android工程师
·
2月前
关注
Transformer : 深度神经网络中的残差连接 (Residual Connection)
** Transformer:深度神经网络中的残差连接 (Residual Connection)** 1. 概述 随着深度学习的发展,神经网络的深度不断增加,以期获得更强...
0
评论
分享
下一页
个人成就
文章被点赞
241
文章被阅读
143,914
掘力值
3,450
关注了
20
关注者
82
收藏集
2
关注标签
6
加入于
2017-10-23