mwq30123

Android工程师

赞

46

|

搜索文章

Anthropic 机械可解释性学习路线

Anthropic 机械可解释性学习路线机械可解释性（Mechanistic Interpretability, MI）是一个门槛较高的领域，因为它不仅涉及代码，还涉及独特的数学直觉。本计划采用**

8天前
37
点赞
评论

Anthropic 机械可解释性学习路线

Cursor Tab 共享无限车

linux.do 大佬开发的，不知道啥时候就不能用了，且用且珍惜。原文地址 Cursor 修改程序地址: Releases · wisdgod/cursor-rp 需要下载 modifier 文件,

8天前
120
点赞
评论

LLM 推理的“显存墙”与“通信墙”：从显存分布到部署原则

这是一篇基于我们之前的对话内容整合而成的深度技术文章。文章从你提供的关于“显存与带宽限制”的精辟论述出发，深入剖析了 Llama-3-70B 的实际数据，对比了 MHA 与 GQA 的巨大差异，并探讨

9天前
50
点赞
评论

LLM 推理的“显存墙”与“通信墙”：从显存分布到部署原则

《前端项目技术文档生成器》Prompt（可复用模板）

下面提供你一份专门为前端项目优化的《技术文档自动生成 Prompt 模板》，适用于： React / Vue / Angular / Svelte / Next.js / Nuxt / Vite

11天前
429
7
评论

揭秘 MoE 训练的“三驾马车”

揭秘 MoE 训练的“三驾马车”：一篇博客看懂 $L_{\text{main}}$, $L_{\text{balance}}$ 和 $L_{\text{router-z}}$ 在混合专家模型（MoE）

22天前
176
1
评论

MoE 负载均衡之争：为何 Mixtral 的“实用主义”胜过了“统计主义”？

MoE 负载均衡之争：为何 Mixtral 的“实用主义”胜过了“统计主义”？在当今的大模型（LLM）领域，MoE（Mixture of Experts）架构已经成为实现“更快、更强、更大”的黄金门

22天前
53
点赞
评论

解密“混合专家模型” (MoE) 的全部魔法

解密“混合专家模型” (MoE) 的全部魔法在当今大语言模型 (LLM) 的竞赛中，您一定听说过 GPT-4、Mixtral 8x7B 这样的“巨无霸”。它们之所以能在保持惊人性能的同时实现高效推理

23天前
100
1
评论

解密“混合专家模型” (MoE) 的全部魔法

MiniMind 模型架构创新技术详解

MiniMind 模型架构创新技术详解 https://github.com/AlvinScrp/minimind/blob/master/model/model.py 一、核心架构差异 1. RMS

25天前
87
点赞
评论

从傅里叶时钟到混合尺度：解构 RoPE 位置编码的演进之路

从傅里叶时钟到混合尺度：解构 RoPE 位置编码的演进之路摘要自 Transformer 架构诞生以来，位置编码一直是其核心组件之一。旋转位置编码 (RoPE) 利用傅里叶变换的“时移-相旋”特性

26天前
267
1
评论

从傅里叶时钟到混合尺度：解构 RoPE 位置编码的演进之路

从傅里叶变换到 RoPE：解构位置编码的数学灵魂

从傅里叶变换到 RoPE：解构位置编码的数学灵魂旋转位置编码 (RoPE) 的天才之处，并不仅仅在于它使用了 sin 和 cos 函数。它真正的革命性在于，它将傅里叶变换的“时移定理” （Time-

26天前
90
点赞
评论

从傅里叶变换到 RoPE：解构位置编码的数学灵魂

个人成就

文章被点赞 238

文章被阅读 139,873

掘力值 3,395

加入于

2017-10-23