算法模型

算法模型

算法模型

算法模型

暂无订阅共7篇文章创建于2026-04-20

DeepSeek 这些年的研究轨迹：他们在哪些方向上做布局？

前几天，DeepSeek 发布 V4，再度上热搜。回顾这些年，一篇篇论文，DeepSeek 在哪些方向持续布局？我们一起来看看。主路：大语言模型本身，以及为「训得动、推得起」服务的一套东西——MoE

2天前
7
点赞
评论

语言模型正在把“思考”迁到潜空间：五视角读懂《The Latent Space》综述

过去一段时间，latent space 这个词越来越常见。但这个概念到底在讲什么？它又真正改变了什么？这篇综述最有价值的地方，是没有停在抽象定义，而是把问题拆成了五个可讨论、可对照的视角： Fo

6天前
27
点赞
评论

Prefill-as-a-Service：为什么下一代模型的 KVCache 可以“跨机房”了

过去两年，行业在 LLM 推理优化上有一个看似正确、实际很容易把人带偏的默认前提：我们把 Prefill-Decode（PD）解耦奉为标准动作，却默认它们必须困在同一个昂贵 RDMA 网络域里。这

7天前
33
点赞
评论

从传闻到结构：OpenMythos 对 Claude Mythos 的理论重建

当 Claude Mythos 用“发现成千上万零日漏洞”的新闻刷屏时，行业很容易掉进一种熟悉的情绪：一边惊叹黑箱系统的能力，一边反复追问“它到底怎么做到的”，最后停在猜测。这次有点不一样。 22

8天前
40
点赞
评论

深度也像序列一样需要「注意力」？Kimi 团队这篇 AttnRes 在讲什么

论文[1]：Kimi Team 技术报告（arXiv:2603.15031）代码[2]：MoonshotAI/Attention-Residuals 一、痛点：PreNorm + 标准残差在「深度」

1月前
212
点赞
评论

深度也像序列一样需要「注意力」？Kimi 团队这篇 AttnRes 在讲什么

KV 与向量都要瘦：TurboQuant 在压缩什么、凭什么敢叫「接近最优」？

社交圈里偶尔冒出一种半开玩笑的说法：Google Research 一篇讲 KV 与向量极端压缩的博文，「把内存相关股价都带崩了」。笔者未核实任何单日行情与因果链——股价受利率、库存、产能、风险偏好等

1月前
52
点赞
评论

从堆参数到配计算：Looped Transformer 正在改写 AI 推理范式

一、引言：为什么需要“循环”？当缩放定律长期指向“更大模型更强”时，Looped Transformer 走的是另一条路：深度不一定要用参数购买，能不能用计算复用来获得？如果把标准 Transf

9天前
42
点赞
评论