首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
树獭叔叔
掘友等级
Agent
|
前阿里巴巴 |现AI初创
正在努力学习吸收最前沿的AI知识(算法-工程-产品)
获得徽章 1
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2.8K
文章 2.8K
沸点 29
赞
2.8K
返回
|
搜索文章
最新
热门
PyTorch学习阶段二 - Autograd 自动微分引擎
📚 目录 从链式法则到自动微分:为什么需要 Autograd? 计算图的动态构建:每个操作都在记录历史 backward() 的实现原理:反向传播的机制 grad_fn 的追踪:梯度函数链 自定义操作
PyTorch学习阶段一:前向传播 - Tensor 的内存模型与高性能算子
阶段一:前向传播 - Tensor 的内存模型与高性能算子 📚 目录 Tensor 的三要素:Storage、Shape、Stride 设计动机:为什么要分离 Storage 和 Shape? 零拷贝
PyTorch 总览:从工程视角重新认识深度学习框架
🎯 PyTorch 到底是什么? 如果你问一个初学者"PyTorch 是什么",大多数人会说: 这个答案没错,但不够准确。让我们换一个更工程化的视角: PyTorch 的本质定义 PyTorch 是一
DualPath: 突破 AI Agent 推理中的存储带宽瓶颈
📋 论文概览 随着 AI Agent(智能体)应用的快速发展,大语言模型(LLM)不再仅仅是一次性的对话工具,而是能够进行多轮交互、调用工具、执行代码的智能助手。然而,这种多轮迭代的 Agent 推理
别再盲目堆残差了!Moonshot AI 的 AttnRes 如何让 LLM 训练提速 25%?
一、痛点:传统残差连接的"平庸陷阱" 1.1 ResNet 的辉煌与困境 2015年,何恺明提出的 ResNet 凭借一个简洁的公式统治了深度学习: 这个"恒等映射 + 残差"的设计让网络可以轻松堆到
大模型中的KL散度:从理论到实践的完整指南
大模型中的KL散度:从理论到实践的完整指南 目录 什么是KL散度 KL散度的数学本质 在大模型中的核心应用 RLHF中的KL散度 知识蒸馏中的KL散度 实现细节与优化技巧 常见问题与解决方案 什么是K
深度拆解 DeepSeek-R1:强化学习如何“催生”大模型的推理灵魂?
2025 年初,DeepSeek 发布了 R1 系列模型。其核心突破在于:通过**强化学习(RL)**而非单纯的模仿学习,让模型自发产生了自我反思、多步验证等高级推理行为。以下是 DeepSeek-R
扩散模型完全指南:从直觉到数学的深度解析
22-扩散模型完全指南:从直觉到数学的深度解析 引言 扩散模型(Diffusion Models)是当前最先进的生成模型之一,在图像生成领域取得了超越GAN的效果。从DALL-E 2到Stable D
视频生成底层逻辑:Spatio-Temporal DiT (时空扩散 Transformer)
视频生成不是简单的“多画几张图”,而是要在三维空间(高度、宽度、时间)内维持像素的连贯性。 1. 核心变革:Space-Time Patches (时空切片) 在 DiT 中,我们将一张图切成一个个方
深度拆解 RMSNorm:为什么现代大模型(Llama 3/DeepSeek)都弃用了 LayerNorm?
在 Transformer 架构的演进中,归一化(Normalization)是确保模型不“跑飞”的定海神针。从 BERT 时代的 LayerNorm (LN) 到如今大模型标配的 RMSNorm,这
下一页
个人成就
优秀创作者
文章被点赞
2,533
文章被阅读
162,692
掘力值
8,622
关注了
87
关注者
176
收藏集
2
关注标签
8
加入于
2022-04-27