首页
AI Coding
数据标注
NEW
沸点
课程
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
人工智能学习
mwq30123
创建于2025-07-23
订阅专栏
人工智能学习
等 2 人订阅
共29篇文章
创建于2025-07-23
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
不再混淆:导数 (Derivative) 与微分 (Differential) 的本质对决
不再混淆:导数 (Derivative) 与微分 (Differential) 的本质对决 在微积分的入门阶段,很多同学会产生一种错觉:认为微分只是导数的另一种写法,或者觉得 $\frac{dy}{d
Anthropic 机械可解释性学习路线
Anthropic 机械可解释性学习路线 机械可解释性(Mechanistic Interpretability, MI)是一个门槛较高的领域,因为它不仅涉及代码,还涉及独特的数学直觉。本计划采用**
LLM 推理的“显存墙”与“通信墙”:从显存分布到部署原则
这是一篇基于我们之前的对话内容整合而成的深度技术文章。文章从你提供的关于“显存与带宽限制”的精辟论述出发,深入剖析了 Llama-3-70B 的实际数据,对比了 MHA 与 GQA 的巨大差异,并探讨
揭秘 MoE 训练的“三驾马车”
揭秘 MoE 训练的“三驾马车”:一篇博客看懂 $L_{\text{main}}$, $L_{\text{balance}}$ 和 $L_{\text{router-z}}$ 在混合专家模型(MoE)
MoE 负载均衡之争:为何 Mixtral 的“实用主义”胜过了“统计主义”?
MoE 负载均衡之争:为何 Mixtral 的“实用主义”胜过了“统计主义”? 在当今的大模型(LLM)领域,MoE(Mixture of Experts)架构已经成为实现“更快、更强、更大”的黄金门
解密“混合专家模型” (MoE) 的全部魔法
解密“混合专家模型” (MoE) 的全部魔法 在当今大语言模型 (LLM) 的竞赛中,您一定听说过 GPT-4、Mixtral 8x7B 这样的“巨无霸”。它们之所以能在保持惊人性能的同时实现高效推理
从傅里叶时钟到混合尺度:解构 RoPE 位置编码的演进之路
从傅里叶时钟到混合尺度:解构 RoPE 位置编码的演进之路 摘要 自 Transformer 架构诞生以来,位置编码一直是其核心组件之一。旋转位置编码 (RoPE) 利用傅里叶变换的“时移-相旋”特性
从傅里叶变换到 RoPE:解构位置编码的数学灵魂
从傅里叶变换到 RoPE:解构位置编码的数学灵魂 旋转位置编码 (RoPE) 的天才之处,并不仅仅在于它使用了 sin 和 cos 函数。它真正的革命性在于,它将傅里叶变换的“时移定理” (Time-
位置编码的技术演进线路:从绝对到相对,再到几何一致性
本文系统梳理了 Transformer 位置编码的技术演进路径: 从 正弦余弦绝对位置编码 到旋转位置编码
旋转位置编码RoPE:用旋转艺术,解开 Transformer 的位置之谜
位置编码RoPE:用旋转艺术,解开 Transformer 的位置之谜 在现代大型语言模型(LLM)的宏伟殿堂中,从 PaLM、Llama 到 GPT-NeoX,一个共同的基石在支撑着它们对序列顺序的
RLHF :深入解析奖励模型 (Reward Model)
GPT-RLHF :深入解析奖励模型 (Reward Model) 从 ChatGPT 到 Claude,再到各种开源大模型,它们惊艳表现的背后,除了不断增长的参数规模,还有一个至关重要的技术——基于
GPT:GELU (Gaussian Error Linear Unit) 激活函数详解
GELU (Gaussian Error Linear Unit) 激活函数详解 1. 概述 GELU,全称为“高斯误差线性单元”,是一种高性能的、平滑的激活函数。与 ReLU 及其变体(如 Leak
Transformer: LayerNorm层归一化模块详解(PyTorch实现)
从零实现 LayerNorm:PyTorch 自定义层归一化模块详解 🧠 一、为什么要自定义 LayerNorm? 在深度学习模型中,归一化 (Normalization) 技术被广泛用于稳定训练和加
GPT-2技术范式解析:无监督多任务学习的概率视角
GPT-2技术范式解析:无监督多任务学习的概率视角 摘要 本文档旨在深入解析OpenAI GPT-2模型所提出的革命性思想:如何在一个统一的、无监督的生成式预训练框架下,实现多任务学习。我们将详细阐述
RNN 梯度计算详细推导 (BPTT)
RNN 梯度计算详细推导 (BPTT) 为了详细推导循环神经网络(RNN)中的梯度计算方法——沿时间反向传播(Backpropagation Through Time, BPTT),我们将使用一个最基
GPT vs BERT:一个是预言家,一个是侦探|深入理解语言模型的两大范式
GPT vs BERT:一个是预言家,一个是侦探|深入理解语言模型的两大范式 🧩 导语:AI 的“语言觉醒” 早期的自然语言模型(比如 Word2Vec、GloVe)非常“死板”: 每个词都只有一个固
GPT系列模型演进:从GPT-1到GPT-4o的技术突破与差异解析
GPT系列模型演进:从GPT-1到GPT-4o的技术突破与差异解析 自2018年OpenAI发布第一个GPT模型以来,生成式预训练Transformer(GPT)系列模型以其惊人的发展速度和不断突破的
从 Word2Vec 到 GPT:词向量的上下文进化史
🔍 从 Word2Vec 到 GPT:词向量的上下文进化史 在自然语言处理(NLP)的世界里,词向量(Word Embeddings)是最基础的构建块。它们不仅是“词语的数字化表示”,更承载着语义和上
AI模型的“返璞归真”:为何设计越来越简单,性能却持续爆发?
AI 模型的“返璞归真”:为何设计越来越简单,力量却越来越强? 如果你一直关注人工智能的发展,从 RNN、LSTM 到如今大放异彩的 Transformer、GPT、BERT,你可能会注意到一个有趣又
如何使用 OpenAI API 构建Agents
Agents 学习如何使用 OpenAI API 构建智能体 (Agents)。 原文 智能体 (Agents) 表示能够智能完成任务的系统,范围可以从执行简单的工作流到追求复杂的、开放式的目标。 O
下一页