国产模型无法超越支持 18 禁模式的 Grok 3 语音模式DeepSeek 开源周首秀：高效 MLA 解码内核 Fla

FlashMLA[1] 是由 DeepSeek 开发的一款高效的 MLA 解码内核，专为 NVIDIA Hopper 架构 GPU（如 H800 和 H100）设计。

昨天，该项目作为 DeepSeek 开源周的首秀推出。这款内核的灵感来源于 flash-attention，目前已经在 GitHub 上获得了 7.7k 的 star。

Qwen 团队昨日宣布[2]在 Qwen Chat 中推出全新功能“Thinking (QwQ)”，该功能由 QwQ-Max-Preview 模型提供支持，现已可通过 qwen.ai 访问！

接下来，Qwen 团队计划发布 QwQ-Max 的正式版本，并将 QwQ-Max 和 Qwen2.5-Max 以 Apache 2.0 许可开源。

此外，他们还将推出更小型的版本，例如 QwQ-32B，适合在本地设备上部署。

同时，官方还将在正式发布 QwQ-Max 时推出 Android 和 iOS 应用程序。

Grok 3[3] 最近在APP中上线了其语音模式，这一功能与 ChatGPT 的高级语音模式相似，允许用户通过自然语言与其进行对话，仿佛与真人交谈一般。

目前，该功能仅支持英文，并提供了一个专门的选项来支持 18 禁模式。这下，国产模型没得超越了！

Anthropic 刚刚发布了 Claude 3.7 Sonnet[4] 混合推理模型，拥有200K的上下文窗口，支持高达128K的输出token（测试版），性能超过 DeepSeek R1。支持通过API或 Claude.ai 使用提供服务。

此外，他们还推出了一款面向开发者的命令行工具 Claude Code[5]，目前处于预览阶段，可以帮助开发者直接在终端中完成复杂的工程任务，能搜索和阅读代码、编辑文件、运行测试、提交代码到 GitHub 等。