首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
算法模型
贵慜_Derek
创建于2026-04-20
订阅专栏
算法模型
暂无订阅
共7篇文章
创建于2026-04-20
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
DeepSeek 这些年的研究轨迹:他们在哪些方向上做布局?
前几天,DeepSeek 发布 V4,再度上热搜。回顾这些年,一篇篇论文,DeepSeek 在哪些方向持续布局?我们一起来看看。 主路:大语言模型本身,以及为「训得动、推得起」服务的一套东西——MoE
语言模型正在把“思考”迁到潜空间:五视角读懂《The Latent Space》综述
过去一段时间,latent space 这个词越来越常见。 但这个概念到底在讲什么?它又真正改变了什么? 这篇综述最有价值的地方,是没有停在抽象定义, 而是把问题拆成了五个可讨论、可对照的视角: Fo
Prefill-as-a-Service:为什么下一代模型的 KVCache 可以“跨机房”了
过去两年,行业在 LLM 推理优化上有一个看似正确、实际很容易把人带偏的默认前提: 我们把 Prefill-Decode(PD)解耦奉为标准动作,却默认它们必须困在同一个昂贵 RDMA 网络域里。 这
从传闻到结构:OpenMythos 对 Claude Mythos 的理论重建
当 Claude Mythos 用“发现成千上万零日漏洞”的新闻刷屏时,行业很容易掉进一种熟悉的情绪: 一边惊叹黑箱系统的能力,一边反复追问“它到底怎么做到的”,最后停在猜测。 这次有点不一样。 22
深度也像序列一样需要「注意力」?Kimi 团队这篇 AttnRes 在讲什么
论文[1]:Kimi Team 技术报告(arXiv:2603.15031) 代码[2]:MoonshotAI/Attention-Residuals 一、痛点:PreNorm + 标准残差在「深度」
KV 与向量都要瘦:TurboQuant 在压缩什么、凭什么敢叫「接近最优」?
社交圈里偶尔冒出一种半开玩笑的说法:Google Research 一篇讲 KV 与向量极端压缩的博文,「把内存相关股价都带崩了」。笔者未核实任何单日行情与因果链——股价受利率、库存、产能、风险偏好等
从堆参数到配计算:Looped Transformer 正在改写 AI 推理范式
一、引言:为什么需要“循环”? 当缩放定律长期指向“更大模型更强”时,Looped Transformer 走的是另一条路: 深度不一定要用参数购买,能不能用计算复用来获得? 如果把标准 Transf