树獭叔叔

Agent | 前阿里巴巴｜现AI初创

正在努力学习吸收最前沿的AI知识（算法-工程-产品）

赞

2.8K

|

搜索文章

赞

文章( 2.8K ) 沸点( 29 )

PyTorch 总览：从工程视角重新认识深度学习框架

🎯 PyTorch 到底是什么？如果你问一个初学者"PyTorch 是什么"，大多数人会说：这个答案没错，但不够准确。让我们换一个更工程化的视角： PyTorch 的本质定义 PyTorch 是一

树獭叔叔
5小时前
15
1
评论

DualPath: 突破 AI Agent 推理中的存储带宽瓶颈

📋 论文概览随着 AI Agent（智能体）应用的快速发展，大语言模型（LLM）不再仅仅是一次性的对话工具，而是能够进行多轮交互、调用工具、执行代码的智能助手。然而，这种多轮迭代的 Agent 推理

树獭叔叔
8小时前
4
1
评论

检索增强生成（RAG）：让大模型突破知识边界

什么是RAG？ RAG（Retrieval-Augmented Generation，检索增强生成）是一种让大语言模型能够访问外部知识库的技术，通过在生成答案前先检索相关文档，从根本上解决了大模型的三

树獭叔叔
7天前
78
1
1

深度拆解 RMSNorm：为什么现代大模型（Llama 3/DeepSeek）都弃用了 LayerNorm？

在 Transformer 架构的演进中，归一化（Normalization）是确保模型不“跑飞”的定海神针。从 BERT 时代的 LayerNorm (LN) 到如今大模型标配的 RMSNorm，这

树獭叔叔
7天前
18
1
评论

视频生成底层逻辑：Spatio-Temporal DiT (时空扩散 Transformer)

视频生成不是简单的“多画几张图”，而是要在三维空间（高度、宽度、时间）内维持像素的连贯性。 1. 核心变革：Space-Time Patches (时空切片) 在 DiT 中，我们将一张图切成一个个方

树獭叔叔
6天前
19
1
评论

扩散模型完全指南：从直觉到数学的深度解析

22-扩散模型完全指南：从直觉到数学的深度解析引言扩散模型（Diffusion Models）是当前最先进的生成模型之一，在图像生成领域取得了超越GAN的效果。从DALL-E 2到Stable D

树獭叔叔
6天前
39
1
评论

深度拆解 DeepSeek-R1：强化学习如何“催生”大模型的推理灵魂？

2025 年初，DeepSeek 发布了 R1 系列模型。其核心突破在于：通过**强化学习（RL）**而非单纯的模仿学习，让模型自发产生了自我反思、多步验证等高级推理行为。以下是 DeepSeek-R

树獭叔叔
3天前
14
1
评论

大模型中的KL散度：从理论到实践的完整指南

大模型中的KL散度：从理论到实践的完整指南目录什么是KL散度 KL散度的数学本质在大模型中的核心应用 RLHF中的KL散度知识蒸馏中的KL散度实现细节与优化技巧常见问题与解决方案什么是K

树獭叔叔
3天前
29
1
评论

别再盲目堆残差了！Moonshot AI 的 AttnRes 如何让 LLM 训练提速 25%？

一、痛点：传统残差连接的"平庸陷阱" 1.1 ResNet 的辉煌与困境 2015年，何恺明提出的 ResNet 凭借一个简洁的公式统治了深度学习：这个"恒等映射 + 残差"的设计让网络可以轻松堆到

树獭叔叔
1天前
38
1
评论

OpenClaw Workspace 文件完整指南：从文件到 AI 行为的完整链路

1. 核心概念 1.1 什么是 Workspace Workspace（工作区）是 OpenClaw agent 的"个人文件夹"，存储了： ✅ 身份定义：我是谁？（SOUL.md, IDENTIT

树獭叔叔
8天前
165
1
评论

个人成就

优秀创作者

文章被点赞 2,530

文章被阅读 162,070

掘力值 8,581

加入于

2022-04-27