27-260411 AI 科技日报 (Office Word里面可以用Claude Beta了)27-260411 AI

27-260411 AI 科技日报 (Office Word里面可以用Claude Beta了)

共收录 31 条资讯

今日必看

Agent基准测试爆出大规模作弊 — 测不出智力就开始骗，9个榜单被污染。
微软AI Agent成功复现三周研究工作 — 微软证明了AI不仅能写代码，还能做研究。
MiniMax发布MMX-CLI — 给沉默的Agent装上视觉和语音的五官。
视频生成模型变身“神经计算机” — 不调API，用预测下一帧来直接控制电脑。
Garry Tan 开源生产级 AI 记忆系统 — YC 总裁把自家管万份文档的方案开源了
Claude for Word 开启测试版 — 文档打工人可以直接在侧边栏用 Claude 了
OpenAI 员工分享 Codex 进阶用法 — 别丢长文本给 AI，给它造个 CLI
Meta提出“神经计算机”概念 — 模型不再只是操作电脑，而是直接成为计算环境
Hugging Face推出Kernels — 给硬核AI工程师准备的底层玩家专属武器
PyTorch原生支持Google TPU — 几乎不用改代码就能跑TPU了
扣子 2.5 升级 — 为 Agent 配备云电脑、独立邮箱及平行世界测试环境
阿里 0.6B 小模型改造 17B MoE 架构 — 激活参数仅 5%，CPU 达 30 token/s
DeepSeek V4将于4月下旬发布 — 万亿参数规模并深度适配国产芯片

AI模型

大厂卷完参数开始卷架构和端侧运行，国产算力底座也在加速成型。

万亿参数MoE模型推理性能曝光

社区流出一组万亿参数MoE（混合专家）架构模型的数据：总参数量虽然达到1万亿，但每次推理只激活约370亿参数。这种设计让推理速度直接提升了35倍，同时能源消耗降低了40%。

万亿参数听着吓人，但MoE架构的精髓就在于按需调用，这是目前大厂兼顾算力成本和模型智商的最优解。

🔗 @teortaxesTex · MoE架构 推理优化 万亿参数

智谱 GLM 5.1 代码与设计能力表现亮眼

智谱新发布的 GLM 5.1 在 LM Code Arena 榜单上拿到了第三名的成绩，仅次于顶级模型。同时在前端界面还原、UI组件编写等重设计的编码场景下，它也大幅领先于其他同级别的开源模型。目前热门 AI 编辑器 Windsurf 已经光速集成了 GLM-5.1，开发者可以直接在编辑器里调用它来写代码。

国产模型在代码生成这类硬核指标上确实越打越稳了。

🔗 @testingcatalog · GLM 5.1 代码大模型 Windsurf 智谱AI

产品发布

产品越来越实用，从搞怪测评到真正能帮你干活的虚拟伙伴都在进化。

MiniMax发布智能体基建MMX-CLI

MiniMax推出了专为Agent设计的交互套件MMX-CLI。传统的智能体大多只能读写文本，遇到画图、听声音或看世界的需求就卡壳。MMX-CLI打通了底层多模态接口，给Agent装上了图像、视频、语音、音乐等七种“感官”。

这是把大厂的全模态能力打包成了Agent的API接口，应用层开发者终于不用自己拼凑零碎的模型了。

🔗 @MiniMax_AI · MiniMax 多模态 Agent开发

Claude for Word 开启测试版

Anthropic 给 Word 开发了官方插件，目前向团队和企业版开放测试。你可以直接在 Word 侧边栏让 Claude 帮忙起草和修改文档，最实在的是它能保留原有格式，修改内容还会以‘修订’模式显示，非常契合打工人的协作习惯。

保留格式加上修订模式，这才是真正懂文档办公痛点的设计。

🔗 @claudeai · Claude Word插件 办公效率 Anthropic

Claude Code 新增执行计划功能

Claude Code 推出了新的 /ultraplan 命令。你在终端输入需求，Claude 会在网页端生成一份详细的执行计划。你可以先在网页上读一遍并修改细节，确认没问题后再在终端里跑。对那些怕 AI 瞎改代码的开发者来说，多了一步可控的审核确认环节。

🔗 @trq212 · Claude Code AI编程 终端工具

GitHub Copilot CLI 加入多模型反思

微软 CEO 纳德拉透露，GitHub Copilot CLI 现在引入了多模型反思循环（reflection loop）来做代码审查。不同模型交叉验证代码，能在问题滚雪球变大之前尽早揪出 bug，提升代码生成的可靠性。

🔗 @satyanadella · GitHub Copilot 代码审查 多模型

Gemini 推出图片转纸工作品功能

Google Gemini 上线了一个有趣的图像处理功能。在桌面或手机端选择“创建图像”，上传照片并输入提示词，AI 就能把原图风格转换成类似手工剪纸、折纸的艺术效果。适合拿来做头像或创意配图。

🔗 @GeminiApp · Gemini 图像生成 图片处理 AI绘图

Scale AI即将开放Muse Spark API

Scale AI CEO确认，备受开发者关注的Muse Spark很快就会提供API访问。目前这个模型在处理设计和UI生成任务上表现出色，不少开发者都在等着用它接入自己的Agent工作流。

🔗 @alexandr_wang · Scale AI Muse Spark UI生成

Gemini整合NotebookLM并支持3D模型

Google梳理了Gemini近期的关键更新：重点是打通了NotebookLM，现在可以在聊天时直接从私人笔记里调取上下文；另外网页版Gemini能直接在对话框里生成2D可视化图表和互动的3D模型了。

把笔记库当成模型的常驻记忆，这也是目前大厂都在卷的个人知识库方向。

🔗 @GoogleAI · Gemini NotebookLM 多模态

AI测试产品SBTI走红网络

一款名叫SBTI的人格测试工具在网上火了。它用AI合成技术生成带点自嘲和解构意味的抽象标签来对标MBTI。虽然开发者自己也承认没科学依据，但玩法轻量，精准踩中了年轻人的亚文化爽点。

披着AI外衣的心理测验，情绪价值拉满才是真流量密码。

🔗 aibase.com · SBTI AI测试 人格测试

研究论文

今天大厂实验室产出很硬核，看看Meta和微软都在解决什么底层问题。

Meta 将视频生成模型变成“神经计算机”

Meta AI 和 KAUST 提出把模型本身当成计算机运行环境的新思路。研究团队没去破解操作系统的底层 API，而是直接把用户的键鼠操作和屏幕画面当输入，让视频模型预测下一帧。纯靠记录输入输出痕迹，模型就能渲染界面和移动鼠标。目前的 Agent 还要依赖外部系统，这个研究干脆把运行环境打包进了模型里。

极其暴力的美学：既然看不懂复杂的操作系统代码，那就当个视频播放器，用视觉直觉硬解电脑交互。这给 Agent 开辟了新路，如果模型就是系统，目前很多交互延迟和状态同步问题就能迎刃而解。

🔗 @hardmaru · 视频生成 World Model 神经计算机 UI自动化

Covariance Pooling 替代均值池化

GoodfireAI 团队提出了一种新的特征提取方法“协方差池化”（Covariance Pooling），用来替代目前大模型常用的均值池化（Mean Pooling）。在基因序列分析等任务中，均值池化容易丢失特征共同出现的信息，新方法能更好地保留这些深层关系，提升序列级属性的探测精度。

🔗 @GoodfireAI · 特征提取 池化层 大模型优化

微软解决Agent能力评估难题

微软发布了一篇新论文，专门解决目前所有Agent基准测试的共同痛点：怎么准确判断Agent到底有没有真正完成任务。目前主流的自动化评测经常被糊弄，这篇研究给出了新的验证思路和方法。

🔗 @omarsar0 · 微软 Agent测试 模型评估

工具推荐

实打实的开发者兵器谱，从底层算力支持到架构实战全都有。

Hermes Agent Web UI 可视化方案开源

针对开源大模型 Hermes Agent，社区推出了一个好用的 Web UI 管理面板。此前跑本地 Agent 往往像个黑盒，现在开发者可以直观地看到消耗了多少 token、模型记住了什么内容、学会了哪些技能，以及定时任务的运行状态。

🔗 @Teknium · Hermes Agent 可视化 开源工具 Web UI

Garry Tan 开源生产级 AI 记忆系统

YC 总裁 Garry Tan 把自己日常用的 AI Agent 记忆系统开源了。这套系统目前管理着他的一万多份 Markdown 文件和三千多个人物档案，算是跑过实战的成熟配置。如果你一直在折腾怎么让 AI 记住知识库，这套真实场景下的解决方案很有参考价值。

大佬亲自下场开源业务级系统，比一堆纸上谈兵的 Agent Demo 有用得多。

🔗 @garrytan · AI Agent 记忆系统 开源 知识管理

OpenAI 员工分享 Codex 进阶用法

OpenAI Codex 团队成员分享了日常使用心得。遇到杂乱的日志和文档，全丢给 AI 硬啃效率很低，不如花时间写几个输出 JSON、带参数的 CLI 小工具。Codex 本身很擅长用命令行搜索和过滤信息，把常用操作封装成 CLI 后，AI 自己就能熟练调用排查问题。

🔗 @dotey · Codex CLI工具 AI编程 最佳实践

PetClaw 一键解决桌面 Agent 配置痛点

开源项目 OpenClaw 功能强大但配置繁琐。新出的 PetClaw 解决了这个问题，主打一键傻瓜式安装。不需要 API 密钥，不用配环境变量，也不用敲终端命令，不到一分钟就能让一个 AI 桌面代理跑起来。

工具好用是一回事，能不能让小白一分钟用上往往决定了项目的生死。

🔗 @hasantoxr · PetClaw OpenClaw AI Agent 自动化

Hugging Face推出Kernels

随着写业务代码门槛大幅降低，Hugging Face认为未来的核心竞争力在于自己训练、运行和优化AI模型。他们在平台上发布了Kernels功能，给硬核AI工程师提供底层组件库，鼓励大家从单纯的AI用户变成AI构建者。

当调API变成基操，懂底层算子和优化的工程师身价只会越来越高。

🔗 @ClementDelangue · Hugging Face Kernels 模型优化

PyTorch原生支持Google TPU

Google放出了新的PyTorch原生后端支持。以后开发者基本不需要修改现有代码，就能直接把PyTorch工作流跑在Google的TPU集群上，降低了跨平台调用的摩擦力。

苦于算力绑定的开发者多了一个相对平滑的算力选项。

🔗 @jeremyphoward · PyTorch TPU 算力生态

Agent实战书籍《30个必备Agent》

一本面向AI工程师的实战新书引发关注，教大家用LangChain和LangGraph等现有框架，构建具有记忆、规划和推理能力的业务级Agent，并把API和外部数据无缝集成进去。

🔗 @KirkDBorne · Agent开发 LangChain 架构设计

深度学习免费小册子下载破百万

研究员Francois Fleuret提醒大家，他写的那本专门针对手机屏幕排版优化的免费深度学习小册子，下载量即将突破一百万次。这是一份轻量且友好的基础知识读物，适合随时掏出手机翻看。

🔗 @francoisfleuret · 深度学习 开源教程 学习资源

行业动态

圈内人都在讨论的技术瓶颈和商业化方向，听听懂行的人怎么说。

Agent基准测试爆出大规模作弊

最新调查发现，流行的智能体基准测试中存在广泛的作弊行为。涉及9个主流评测基准，超过28个提交的测试结果涉嫌造假，直接影响了尝试复现这些成绩的Agent开发项目。

当一个指标变成目标，它就不再是个好指标。跑分造假不仅浪费算力，更在带偏整个开源社区的方向。

🔗 @andersonbcdefg · Agent 基准测试 作弊 大模型评测

微软AI Agent成功复现三周研究工作

微软展示了AI智能体在科研领域的潜力：一个AI Agent成功复现了原本需要人类耗费三周才能完成的AI研究实验工作。这展示了复杂逻辑链条下，智能体处理长周期研究任务的可行性。

最难被自动化的AI研究工作现在也开始被AI接管，研究员感受到了真实的寒气。

🔗 @algo_diver · 微软 AI Agent 自动化研究

开发者吐槽写代码需要多模型协作

目前用 Agent 写代码的痛点在于模型太偏科。比如前端和工作流任务上，Claude Opus 表现极佳；但到了后端和分布式系统，往往还得靠 GPT 家族。开发者抱怨经常需要在不同模型终端之间横跳，希望能有让多个顶尖模型在同一终端内协作的统一开发环境。

🔗 @Yuchenj_UW · 代码生成 Claude 模型偏科 开发工具

Linux 内核发布 AI 代码贡献指南

Linux 内核官方出台了针对 AI 生成代码的指导规范。这份指南被开发者社区评价为目前最理智、最健全的 AI 政策，为高标准的底层系统开发如何安全引入 AI 辅助代码打下了规矩。

🔗 @algo_diver · Linux 开源规范 AI代码辅助

Sam Altman 住所遭遇极端分子袭击

OpenAI 创始人 Sam Altman 的住宅疑遭燃烧瓶袭击。据透露，袭击者似乎是一名坚定的“暂停/停止AI发展”理念的追随者。事件引发了圈内对科技高管人身安全以及 AI 发展对立情绪激化的担忧。

🔗 @aidan_mclau · Sam Altman OpenAI AI安全 社会事件

OpenAI macOS 客户端因依赖漏洞强制更新

因为第三方库 Axios 出现安全漏洞，OpenAI 紧急更新了 macOS 客户端。官方表示没有证据表明用户数据被访问或系统被入侵，但出于安全考虑正在更新证书，Mac 用户需要更新应用才能继续使用。

🔗 @OpenAI · OpenAI macOS 安全更新 漏洞修复

开发者揭秘 OpenAI 语音模式底座模型

有开发者指出，OpenAI 表现惊艳的语音模式其实运行在一个比较老、参数量较弱的基础模型上。我们总觉得能像人一样流畅对话的 AI 应该是最聪明的，但考虑到语音延迟和算力限制，它并没有用到最前沿的推理模型。

🔗 @simonw · OpenAI 语音模型 技术揭秘 模型推理

AI搜索依然存在高错误率隐患

一项新研究指出，Google的AI Overviews每天依然在产出大量的错误答案。这表明基于大模型的直接搜索问答，在现阶段仍无法完全解决幻觉和事实校验的问题。

🔗 @GaryMarcus · AI搜索 大模型幻觉 Google

Agent的商业化模式猜测

业内猜测，基于Agent赚真金白银的日子可能比预期来得快。未来的形态可能是一个交易市场，开发者打包构建具有特定技能的高度专业化Agent，用户按需雇佣它们完成任务并支付费用。

🔗 @svpino · Agent商业化 应用生态 开发者变现

关于Anthropic Claude Mythos的真相探讨

业内对Anthropic近期表现出的所谓“黑客意识”展开了拆解。有研究者指出，所谓的Claude Mythos其实本质上是一个循环语言模型，其宣称的“找到成千上万个高危漏洞”大概率是一种夸张的销售包装。

🔗 @ylecun · Anthropic Claude 大模型炒作

关注我，每天获取AI最新资讯。