27-260411 AI 科技日报 (Office Word里面可以用Claude Beta了)

0 阅读14分钟

27-260411 AI 科技日报 (Office Word里面可以用Claude Beta了)

共收录 31 条资讯

今日必看

  1. Agent基准测试爆出大规模作弊 — 测不出智力就开始骗,9个榜单被污染。
  2. 微软AI Agent成功复现三周研究工作 — 微软证明了AI不仅能写代码,还能做研究。
  3. MiniMax发布MMX-CLI — 给沉默的Agent装上视觉和语音的五官。
  4. 视频生成模型变身“神经计算机” — 不调API,用预测下一帧来直接控制电脑。
  5. Garry Tan 开源生产级 AI 记忆系统 — YC 总裁把自家管万份文档的方案开源了
  6. Claude for Word 开启测试版 — 文档打工人可以直接在侧边栏用 Claude 了
  7. OpenAI 员工分享 Codex 进阶用法 — 别丢长文本给 AI,给它造个 CLI
  8. Meta提出“神经计算机”概念 — 模型不再只是操作电脑,而是直接成为计算环境
  9. Hugging Face推出Kernels — 给硬核AI工程师准备的底层玩家专属武器
  10. PyTorch原生支持Google TPU — 几乎不用改代码就能跑TPU了
  11. 扣子 2.5 升级 — 为 Agent 配备云电脑、独立邮箱及平行世界测试环境
  12. 阿里 0.6B 小模型改造 17B MoE 架构 — 激活参数仅 5%,CPU 达 30 token/s
  13. DeepSeek V4将于4月下旬发布 — 万亿参数规模并深度适配国产芯片

AI模型

大厂卷完参数开始卷架构和端侧运行,国产算力底座也在加速成型。

万亿参数MoE模型推理性能曝光

社区流出一组万亿参数MoE(混合专家)架构模型的数据:总参数量虽然达到1万亿,但每次推理只激活约370亿参数。这种设计让推理速度直接提升了35倍,同时能源消耗降低了40%。

万亿参数听着吓人,但MoE架构的精髓就在于按需调用,这是目前大厂兼顾算力成本和模型智商的最优解。

🔗 @teortaxesTex · MoE架构 推理优化 万亿参数

智谱 GLM 5.1 代码与设计能力表现亮眼

智谱新发布的 GLM 5.1 在 LM Code Arena 榜单上拿到了第三名的成绩,仅次于顶级模型。同时在前端界面还原、UI组件编写等重设计的编码场景下,它也大幅领先于其他同级别的开源模型。目前热门 AI 编辑器 Windsurf 已经光速集成了 GLM-5.1,开发者可以直接在编辑器里调用它来写代码。

国产模型在代码生成这类硬核指标上确实越打越稳了。

🔗 @testingcatalog · GLM 5.1 代码大模型 Windsurf 智谱AI

产品发布

产品越来越实用,从搞怪测评到真正能帮你干活的虚拟伙伴都在进化。

MiniMax发布智能体基建MMX-CLI

MiniMax推出了专为Agent设计的交互套件MMX-CLI。传统的智能体大多只能读写文本,遇到画图、听声音或看世界的需求就卡壳。MMX-CLI打通了底层多模态接口,给Agent装上了图像、视频、语音、音乐等七种“感官”。

这是把大厂的全模态能力打包成了Agent的API接口,应用层开发者终于不用自己拼凑零碎的模型了。

🔗 @MiniMax_AI · MiniMax 多模态 Agent开发

Claude for Word 开启测试版

Anthropic 给 Word 开发了官方插件,目前向团队和企业版开放测试。你可以直接在 Word 侧边栏让 Claude 帮忙起草和修改文档,最实在的是它能保留原有格式,修改内容还会以‘修订’模式显示,非常契合打工人的协作习惯。

保留格式加上修订模式,这才是真正懂文档办公痛点的设计。

🔗 @claudeai · Claude Word插件 办公效率 Anthropic

Claude Code 新增执行计划功能

Claude Code 推出了新的 /ultraplan 命令。你在终端输入需求,Claude 会在网页端生成一份详细的执行计划。你可以先在网页上读一遍并修改细节,确认没问题后再在终端里跑。对那些怕 AI 瞎改代码的开发者来说,多了一步可控的审核确认环节。

🔗 @trq212 · Claude Code AI编程 终端工具

GitHub Copilot CLI 加入多模型反思

微软 CEO 纳德拉透露,GitHub Copilot CLI 现在引入了多模型反思循环(reflection loop)来做代码审查。不同模型交叉验证代码,能在问题滚雪球变大之前尽早揪出 bug,提升代码生成的可靠性。

🔗 @satyanadella · GitHub Copilot 代码审查 多模型

Gemini 推出图片转纸工作品功能

Google Gemini 上线了一个有趣的图像处理功能。在桌面或手机端选择“创建图像”,上传照片并输入提示词,AI 就能把原图风格转换成类似手工剪纸、折纸的艺术效果。适合拿来做头像或创意配图。

🔗 @GeminiApp · Gemini 图像生成 图片处理 AI绘图

Scale AI即将开放Muse Spark API

Scale AI CEO确认,备受开发者关注的Muse Spark很快就会提供API访问。目前这个模型在处理设计和UI生成任务上表现出色,不少开发者都在等着用它接入自己的Agent工作流。

🔗 @alexandr_wang · Scale AI Muse Spark UI生成

Gemini整合NotebookLM并支持3D模型

Google梳理了Gemini近期的关键更新:重点是打通了NotebookLM,现在可以在聊天时直接从私人笔记里调取上下文;另外网页版Gemini能直接在对话框里生成2D可视化图表和互动的3D模型了。

把笔记库当成模型的常驻记忆,这也是目前大厂都在卷的个人知识库方向。

🔗 @GoogleAI · Gemini NotebookLM 多模态

AI测试产品SBTI走红网络

一款名叫SBTI的人格测试工具在网上火了。它用AI合成技术生成带点自嘲和解构意味的抽象标签来对标MBTI。虽然开发者自己也承认没科学依据,但玩法轻量,精准踩中了年轻人的亚文化爽点。

披着AI外衣的心理测验,情绪价值拉满才是真流量密码。

🔗 aibase.com · SBTI AI测试 人格测试

研究论文

今天大厂实验室产出很硬核,看看Meta和微软都在解决什么底层问题。

Meta 将视频生成模型变成“神经计算机”

Meta AI 和 KAUST 提出把模型本身当成计算机运行环境的新思路。研究团队没去破解操作系统的底层 API,而是直接把用户的键鼠操作和屏幕画面当输入,让视频模型预测下一帧。纯靠记录输入输出痕迹,模型就能渲染界面和移动鼠标。目前的 Agent 还要依赖外部系统,这个研究干脆把运行环境打包进了模型里。

极其暴力的美学:既然看不懂复杂的操作系统代码,那就当个视频播放器,用视觉直觉硬解电脑交互。这给 Agent 开辟了新路,如果模型就是系统,目前很多交互延迟和状态同步问题就能迎刃而解。

🔗 @hardmaru · 视频生成 World Model 神经计算机 UI自动化

Covariance Pooling 替代均值池化

GoodfireAI 团队提出了一种新的特征提取方法“协方差池化”(Covariance Pooling),用来替代目前大模型常用的均值池化(Mean Pooling)。在基因序列分析等任务中,均值池化容易丢失特征共同出现的信息,新方法能更好地保留这些深层关系,提升序列级属性的探测精度。

🔗 @GoodfireAI · 特征提取 池化层 大模型优化

微软解决Agent能力评估难题

微软发布了一篇新论文,专门解决目前所有Agent基准测试的共同痛点:怎么准确判断Agent到底有没有真正完成任务。目前主流的自动化评测经常被糊弄,这篇研究给出了新的验证思路和方法。

🔗 @omarsar0 · 微软 Agent测试 模型评估

工具推荐

实打实的开发者兵器谱,从底层算力支持到架构实战全都有。

Hermes Agent Web UI 可视化方案开源

针对开源大模型 Hermes Agent,社区推出了一个好用的 Web UI 管理面板。此前跑本地 Agent 往往像个黑盒,现在开发者可以直观地看到消耗了多少 token、模型记住了什么内容、学会了哪些技能,以及定时任务的运行状态。

🔗 @Teknium · Hermes Agent 可视化 开源工具 Web UI

Garry Tan 开源生产级 AI 记忆系统

YC 总裁 Garry Tan 把自己日常用的 AI Agent 记忆系统开源了。这套系统目前管理着他的一万多份 Markdown 文件和三千多个人物档案,算是跑过实战的成熟配置。如果你一直在折腾怎么让 AI 记住知识库,这套真实场景下的解决方案很有参考价值。

大佬亲自下场开源业务级系统,比一堆纸上谈兵的 Agent Demo 有用得多。

🔗 @garrytan · AI Agent 记忆系统 开源 知识管理

OpenAI 员工分享 Codex 进阶用法

OpenAI Codex 团队成员分享了日常使用心得。遇到杂乱的日志和文档,全丢给 AI 硬啃效率很低,不如花时间写几个输出 JSON、带参数的 CLI 小工具。Codex 本身很擅长用命令行搜索和过滤信息,把常用操作封装成 CLI 后,AI 自己就能熟练调用排查问题。

🔗 @dotey · Codex CLI工具 AI编程 最佳实践

PetClaw 一键解决桌面 Agent 配置痛点

开源项目 OpenClaw 功能强大但配置繁琐。新出的 PetClaw 解决了这个问题,主打一键傻瓜式安装。不需要 API 密钥,不用配环境变量,也不用敲终端命令,不到一分钟就能让一个 AI 桌面代理跑起来。

工具好用是一回事,能不能让小白一分钟用上往往决定了项目的生死。

🔗 @hasantoxr · PetClaw OpenClaw AI Agent 自动化

Hugging Face推出Kernels

随着写业务代码门槛大幅降低,Hugging Face认为未来的核心竞争力在于自己训练、运行和优化AI模型。他们在平台上发布了Kernels功能,给硬核AI工程师提供底层组件库,鼓励大家从单纯的AI用户变成AI构建者。

当调API变成基操,懂底层算子和优化的工程师身价只会越来越高。

🔗 @ClementDelangue · Hugging Face Kernels 模型优化

PyTorch原生支持Google TPU

Google放出了新的PyTorch原生后端支持。以后开发者基本不需要修改现有代码,就能直接把PyTorch工作流跑在Google的TPU集群上,降低了跨平台调用的摩擦力。

苦于算力绑定的开发者多了一个相对平滑的算力选项。

🔗 @jeremyphoward · PyTorch TPU 算力生态

Agent实战书籍《30个必备Agent》

一本面向AI工程师的实战新书引发关注,教大家用LangChain和LangGraph等现有框架,构建具有记忆、规划和推理能力的业务级Agent,并把API和外部数据无缝集成进去。

🔗 @KirkDBorne · Agent开发 LangChain 架构设计

深度学习免费小册子下载破百万

研究员Francois Fleuret提醒大家,他写的那本专门针对手机屏幕排版优化的免费深度学习小册子,下载量即将突破一百万次。这是一份轻量且友好的基础知识读物,适合随时掏出手机翻看。

🔗 @francoisfleuret · 深度学习 开源教程 学习资源

行业动态

圈内人都在讨论的技术瓶颈和商业化方向,听听懂行的人怎么说。

Agent基准测试爆出大规模作弊

最新调查发现,流行的智能体基准测试中存在广泛的作弊行为。涉及9个主流评测基准,超过28个提交的测试结果涉嫌造假,直接影响了尝试复现这些成绩的Agent开发项目。

当一个指标变成目标,它就不再是个好指标。跑分造假不仅浪费算力,更在带偏整个开源社区的方向。

🔗 @andersonbcdefg · Agent 基准测试 作弊 大模型评测

微软AI Agent成功复现三周研究工作

微软展示了AI智能体在科研领域的潜力:一个AI Agent成功复现了原本需要人类耗费三周才能完成的AI研究实验工作。这展示了复杂逻辑链条下,智能体处理长周期研究任务的可行性。

最难被自动化的AI研究工作现在也开始被AI接管,研究员感受到了真实的寒气。

🔗 @algo_diver · 微软 AI Agent 自动化研究

开发者吐槽写代码需要多模型协作

目前用 Agent 写代码的痛点在于模型太偏科。比如前端和工作流任务上,Claude Opus 表现极佳;但到了后端和分布式系统,往往还得靠 GPT 家族。开发者抱怨经常需要在不同模型终端之间横跳,希望能有让多个顶尖模型在同一终端内协作的统一开发环境。

🔗 @Yuchenj_UW · 代码生成 Claude 模型偏科 开发工具

Linux 内核发布 AI 代码贡献指南

Linux 内核官方出台了针对 AI 生成代码的指导规范。这份指南被开发者社区评价为目前最理智、最健全的 AI 政策,为高标准的底层系统开发如何安全引入 AI 辅助代码打下了规矩。

🔗 @algo_diver · Linux 开源规范 AI代码辅助

Sam Altman 住所遭遇极端分子袭击

OpenAI 创始人 Sam Altman 的住宅疑遭燃烧瓶袭击。据透露,袭击者似乎是一名坚定的“暂停/停止AI发展”理念的追随者。事件引发了圈内对科技高管人身安全以及 AI 发展对立情绪激化的担忧。

🔗 @aidan_mclau · Sam Altman OpenAI AI安全 社会事件

OpenAI macOS 客户端因依赖漏洞强制更新

因为第三方库 Axios 出现安全漏洞,OpenAI 紧急更新了 macOS 客户端。官方表示没有证据表明用户数据被访问或系统被入侵,但出于安全考虑正在更新证书,Mac 用户需要更新应用才能继续使用。

🔗 @OpenAI · OpenAI macOS 安全更新 漏洞修复

开发者揭秘 OpenAI 语音模式底座模型

有开发者指出,OpenAI 表现惊艳的语音模式其实运行在一个比较老、参数量较弱的基础模型上。我们总觉得能像人一样流畅对话的 AI 应该是最聪明的,但考虑到语音延迟和算力限制,它并没有用到最前沿的推理模型。

🔗 @simonw · OpenAI 语音模型 技术揭秘 模型推理

AI搜索依然存在高错误率隐患

一项新研究指出,Google的AI Overviews每天依然在产出大量的错误答案。这表明基于大模型的直接搜索问答,在现阶段仍无法完全解决幻觉和事实校验的问题。

🔗 @GaryMarcus · AI搜索 大模型幻觉 Google

Agent的商业化模式猜测

业内猜测,基于Agent赚真金白银的日子可能比预期来得快。未来的形态可能是一个交易市场,开发者打包构建具有特定技能的高度专业化Agent,用户按需雇佣它们完成任务并支付费用。

🔗 @svpino · Agent商业化 应用生态 开发者变现

关于Anthropic Claude Mythos的真相探讨

业内对Anthropic近期表现出的所谓“黑客意识”展开了拆解。有研究者指出,所谓的Claude Mythos其实本质上是一个循环语言模型,其宣称的“找到成千上万个高危漏洞”大概率是一种夸张的销售包装。

🔗 @ylecun · Anthropic Claude 大模型炒作


关注我,每天获取AI最新资讯。