人工智能学习

人工智能学习

人工智能学习

人工智能学习

等 2 人订阅共34篇文章创建于2025-07-23

anthropic-academy：RAG检索增强生成

检索增强生成简介检索增强生成（RAG）是一种帮助你处理大型文档的技术，这些文档太大而无法放入单个提示中。RAG不是将所有内容塞进一个庞大的提示中，而是将文档分解成块，并在回答问题时只包含最相关的部分

5天前
41
点赞
评论

anthropic-academy：RAG检索增强生成

anthropic-academy：工具使用（二）

批处理工具在使用 Claude 的工具调用功能时，你可能会注意到 Claude 可以在单个助手消息中包含多个工具使用块。这使得 Claude 能够并行运行多个工具，而不是为每个工具分别发起请求。然而

6天前
34
点赞
评论

anthropic-academy：工具使用（二）

anthropic-academy：工具使用（一）

工具使用介绍没有工具的问题当用户向 Claude 询问当前信息时，它会遇到障碍。例如，如果有人问"加利福尼亚州旧金山的天气怎么样？"Claude 只能回复类似"抱歉，我无法获取最新的天气信息。"这

6天前
37
点赞
评论

anthropic-academy：工具使用（一）

anthropic-academy：提示词工程技巧

提示词工程提示词工程是指对已编写的提示进行改进，以获得更可靠、更高质量的输出。这一过程涉及迭代优化——从基础词提示开始，评估其表现，然后系统性地应用工程技术来改进它。迭代改进过程这种方法遵循一个

18天前
70
点赞
评论

anthropic-academy：提示词评估系统完整指南

提示词评估系统完整指南原文参考：https://anthropic.skilljar.com/claude-with-the-anthropic-api/287731 提示词评估系统完整指南 📖 引

19天前
58
点赞
评论

不再混淆：导数 (Derivative) 与微分 (Differential) 的本质对决

不再混淆：导数 (Derivative) 与微分 (Differential) 的本质对决在微积分的入门阶段，很多同学会产生一种错觉：认为微分只是导数的另一种写法，或者觉得 $\frac{dy}{d

1月前
416
点赞
评论

Anthropic 机械可解释性学习路线

Anthropic 机械可解释性学习路线机械可解释性（Mechanistic Interpretability, MI）是一个门槛较高的领域，因为它不仅涉及代码，还涉及独特的数学直觉。本计划采用**

2月前
128
点赞
评论

Anthropic 机械可解释性学习路线

LLM 推理的“显存墙”与“通信墙”：从显存分布到部署原则

这是一篇基于我们之前的对话内容整合而成的深度技术文章。文章从你提供的关于“显存与带宽限制”的精辟论述出发，深入剖析了 Llama-3-70B 的实际数据，对比了 MHA 与 GQA 的巨大差异，并探讨

2月前
156
点赞
评论

LLM 推理的“显存墙”与“通信墙”：从显存分布到部署原则

揭秘 MoE 训练的“三驾马车”

揭秘 MoE 训练的“三驾马车”：一篇博客看懂 $L_{\text{main}}$, $L_{\text{balance}}$ 和 $L_{\text{router-z}}$ 在混合专家模型（MoE）

3月前
251
1
评论

MoE 负载均衡之争：为何 Mixtral 的“实用主义”胜过了“统计主义”？

MoE 负载均衡之争：为何 Mixtral 的“实用主义”胜过了“统计主义”？在当今的大模型（LLM）领域，MoE（Mixture of Experts）架构已经成为实现“更快、更强、更大”的黄金门

3月前
117
点赞
评论

解密“混合专家模型” (MoE) 的全部魔法

解密“混合专家模型” (MoE) 的全部魔法在当今大语言模型 (LLM) 的竞赛中，您一定听说过 GPT-4、Mixtral 8x7B 这样的“巨无霸”。它们之所以能在保持惊人性能的同时实现高效推理

3月前
306
1
评论

解密“混合专家模型” (MoE) 的全部魔法

从傅里叶时钟到混合尺度：解构 RoPE 位置编码的演进之路

从傅里叶时钟到混合尺度：解构 RoPE 位置编码的演进之路摘要自 Transformer 架构诞生以来，位置编码一直是其核心组件之一。旋转位置编码 (RoPE) 利用傅里叶变换的“时移-相旋”特性

3月前
380
1
评论

从傅里叶时钟到混合尺度：解构 RoPE 位置编码的演进之路

从傅里叶变换到 RoPE：解构位置编码的数学灵魂

从傅里叶变换到 RoPE：解构位置编码的数学灵魂旋转位置编码 (RoPE) 的天才之处，并不仅仅在于它使用了 sin 和 cos 函数。它真正的革命性在于，它将傅里叶变换的“时移定理” （Time-

3月前
206
点赞
评论

从傅里叶变换到 RoPE：解构位置编码的数学灵魂

位置编码的技术演进线路：从绝对到相对，再到几何一致性

本文系统梳理了 Transformer 位置编码的技术演进路径：从正弦余弦绝对位置编码到旋转位置编码

3月前
177
点赞
评论

位置编码的技术演进线路：从绝对到相对，再到几何一致性

旋转位置编码RoPE：用旋转艺术，解开 Transformer 的位置之谜

位置编码RoPE：用旋转艺术，解开 Transformer 的位置之谜在现代大型语言模型（LLM）的宏伟殿堂中，从 PaLM、Llama 到 GPT-NeoX，一个共同的基石在支撑着它们对序列顺序的

3月前
288
点赞
1

旋转位置编码RoPE：用旋转艺术，解开 Transformer 的位置之谜

RLHF ：深入解析奖励模型 (Reward Model)

GPT-RLHF ：深入解析奖励模型 (Reward Model) 从 ChatGPT 到 Claude，再到各种开源大模型，它们惊艳表现的背后，除了不断增长的参数规模，还有一个至关重要的技术——基于

3月前
312
点赞
评论

RLHF ：深入解析奖励模型 (Reward Model)

GPT：GELU (Gaussian Error Linear Unit) 激活函数详解

GELU (Gaussian Error Linear Unit) 激活函数详解 1. 概述 GELU，全称为“高斯误差线性单元”，是一种高性能的、平滑的激活函数。与 ReLU 及其变体（如 Leak

4月前
661
点赞
评论

GPT：GELU (Gaussian Error Linear Unit) 激活函数详解

Transformer: LayerNorm层归一化模块详解(PyTorch实现)

从零实现 LayerNorm：PyTorch 自定义层归一化模块详解 🧠 一、为什么要自定义 LayerNorm？在深度学习模型中，归一化 (Normalization) 技术被广泛用于稳定训练和加

4月前
270
1
评论

Transformer: LayerNorm层归一化模块详解(PyTorch实现)

GPT-2技术范式解析：无监督多任务学习的概率视角

GPT-2技术范式解析：无监督多任务学习的概率视角摘要本文档旨在深入解析OpenAI GPT-2模型所提出的革命性思想：如何在一个统一的、无监督的生成式预训练框架下，实现多任务学习。我们将详细阐述

4月前
148
点赞
评论

RNN 梯度计算详细推导 (BPTT)

RNN 梯度计算详细推导 (BPTT) 为了详细推导循环神经网络（RNN）中的梯度计算方法——沿时间反向传播（Backpropagation Through Time, BPTT），我们将使用一个最基

4月前
296
点赞
评论