大模型论文精读

大模型论文精读

大模型论文精读

记录一下大模型的论文

暂无订阅共6篇文章创建于2026-03-16

KTO：诺贝尔经济学奖启发的对齐算法突破

引言：配对数据的昂贵困境想象你正在为公司训练一个客服 AI 助手。团队已经收集了 10 万条真实对话数据，每条都有用户的评分（1-5 星）。你满怀期待地准备开始训练，却在查阅 DPO（Direct

8天前
13
1
评论

Matryoshka Embedding：一个模型搞定所有维度

引言：Embedding 维度选择的困境在构建搜索引擎、推荐系统或 RAG（检索增强生成）应用时，我们经常面临一个艰难的权衡：使用高维 Embedding（如 2048 维）： ✅ 语义信息丰富，

9天前
25
1
评论

内存价格被Google打下来了？: TurboQuant对KVCache的量化

引言：大模型量化是什么？随着大语言模型（LLM）规模不断增长，模型推理所需的内存和计算资源成为了限制其应用的主要瓶颈。一个拥有数百亿参数的模型在推理时不仅需要加载模型参数，还需要存储推理过程中生成的

9天前
134
1
评论

DualPath: 突破 AI Agent 推理中的存储带宽瓶颈

📋 论文概览随着 AI Agent（智能体）应用的快速发展，大语言模型（LLM）不再仅仅是一次性的对话工具，而是能够进行多轮交互、调用工具、执行代码的智能助手。然而，这种多轮迭代的 Agent 推理

17天前
33
1
评论

别再盲目堆残差了！Moonshot AI 的 AttnRes 如何让 LLM 训练提速 25%？

一、痛点：传统残差连接的"平庸陷阱" 1.1 ResNet 的辉煌与困境 2015年，何恺明提出的 ResNet 凭借一个简洁的公式统治了深度学习：这个"恒等映射 + 残差"的设计让网络可以轻松堆到

18天前
129
1
评论

深度拆解 DeepSeek-R1：强化学习如何“催生”大模型的推理灵魂？

2025 年初，DeepSeek 发布了 R1 系列模型。其核心突破在于：通过**强化学习（RL）**而非单纯的模仿学习，让模型自发产生了自我反思、多步验证等高级推理行为。以下是 DeepSeek-R

20天前
460
1
评论