AI Daily | AI日报：陶哲轩：AI改写数学研究规则; Bengio创办组织专治AI风险; 奥特曼：千倍算力模型这样用

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-06-05 资讯日报

新闻资讯

陶哲轩：AI改写数学研究规则

陶哲轩：AlphaEvolve与人类一个月三破18年数学难题，和差集指数θ提升。AI‘广度扫描’与人类‘深度打磨’互补，预示科学发现新纪元，人机共舞探索未知。>阅读原文

Bengio创办组织专治AI风险

Yoshua Bengio：成立非营利组织LawZero，探索更安全AI方法，研发「Scientist AI」，不具行动性，目标是理解世界，避免人类陷入AI风险，强调AI应保护人类幸福与价值。>阅读原文

奥特曼：千倍算力模型这样用

奥特曼：理想AGI能自主发现新科学、解决问题。下一代模型应小型却具强推理力。若算力增千倍，可让模型决定资源利用，也可增加测试计算资源攻克难题。>阅读原文

InfoQ发布推理模型测评报告

InfoQ研究中心：5月29日发布《推理模型综合测评报告2025》，用300题测8大模型，总结各维度表现，梳理趋势。6月6日20:00直播解读，欢迎预约。>阅读原文

Karpathy：软件需为AI开后门

Karpathy称复杂UI无脚本软件将淘汰，给出风险清单。他分享AI编程心法，强调控制和验证重要性，指出编程关键在判别而非生成，软件要为AI开放接口，开发者要掌握正确节奏。>阅读原文

Andrej Karpathy：这类软件要凉

Andrej Karpathy：复杂UI、缺脚本支持且基于自定义二进制格式的软件前景差。Adobe等产品风险高，不主动改造以适配AI的产品处境艰难。>阅读原文

Andrej Karpathy评Veo 3视频生成

Andrej Karpathy：Veo 3这类模型让视频可直接优化，将成AI与人类交流绝佳界面，但‘最优’样子或非我们喜欢；众人看法不一，有人期待，有人担忧。>阅读原文

Snowflake收购增强AI Agent能力

Snowflake：收购Crunchy Data，发布Snowflake Postgres，满足企业级AI需求，具安全合规等特色功能，推动自身成企业数据负载终极地。Landing AI首席执行官：集成有巨大影响。>阅读原文

小米音箱撬动千亿IoT生意

小米：智能音箱虽市场下滑，但集成Mesh网关的它撬动了千亿IoT业务。IoT业务解决线下渠道难题，产品思路转变让其在今年一季度营收猛增，成手机业务重要补充。>阅读原文

00后女孩AI量化创业估值3亿

00后中国女孩洪乐潼：以数学AI创业，0产品0用户就想拿下3 - 5亿美元估值，正筹5000万美元融资，要为量化和对冲基金公司提供模型能力。>阅读原文

Anthropic断供Windsurf Claude模型

Anthropic切断Windsurf对Claude 3.x模型的直接访问权限，此前也拒绝提供Claude 4支持。网友猜测或因OpenAI收购Windsurf，有用户退订，Windsurf推出SWE - 1模型应对。>阅读原文

数学家反超AI破数学难题

DeepMind AlphaEvolve打破集合和差问题18年纪录，匈牙利数学家Gerbicz、华人博士后Fan Zheng先后改进结果。陶哲轩认为AI与人类方法互补，非零和博弈，能推动数学进步。>阅读原文

Reddit起诉Anthropic非法用数据

Reddit：Anthropic未经同意非法访问网站10万次，用用户数据训练AI，违反合同和商业道德。其他巨头都遵守规则，此次起诉要赔偿并让其履约。>阅读原文

吴恩达谈企业构建Agent要点

吴恩达：别纠结是否为Agent，关注‘Agentic’；构建Agent有任务拆解等挑战，AI工具应模块化；评估系统等领域被低估；MCP和Agent间通信尚早；AI创业需团队执行快、有技术理解力。>阅读原文

STAR团队：揭秘MCP重绑定攻击

STAR团队：发现MCP重绑定攻击，结合DNS重绑定与MCP。钓鱼后黑客能借浏览器执行本地命令，如窃取环境变量。建议MCP服务器强制身份验证、绑定会话令牌等防攻击。>阅读原文

米高梅将拍OpenAI宫斗电影

米高梅要将OpenAI高层争斗拍成电影《Artificial》，今年夏天开拍。演员阵容待定，网友对奥特曼等角色人选看法不一，而OpenAI宫斗本身抓马，奥特曼曾48小时极限逆转。>阅读原文

SK海力士登顶全球DRAM市场

市场报告显示，今年一季度SK海力士登顶全球DRAM市场，市占率超三星、美光。借AI浪潮，其HBM需求旺。美光、三星眼馋，在该领域奋起直追。>阅读原文

Windsurf遭Claude断供，AI编程大战升级

Windsurf联创兼CEO：Anthropic无预警减少Claude模型服务配额。Windsurf官方：将采取措施应对，担心此举损自身及业内。Anthropic：优先为持续合作伙伴供资源。>阅读原文

陆璐携手昇腾筑算力生态

陆璐教授：团队针对国外算力‘卡脖子’，与昇腾合作优化性能，成果用于开源和产品。他认为算力生态建设要夯实算子库、建模板库、优化编译器，还要注重人才培养。>阅读原文

Replit怒批Lovable安全漏洞

Replit员工指“欧洲版Cursor”Lovable有安全漏洞，扫描发现170款应用可让人访问用户信息。多位工程师“黑入”，Lovable虽改进但未解决根本问题，氛围编码安全责任引关注。>阅读原文

OpenAI：ChatGPT更新多项功能

OpenAI：ChatGPT更新，深度研究加连接器，能连企业和个人数据源；新增录音模式，自动整理内容。还调整定价，Enterprise用户即日可用新功能，Team用户未来几周推出。>阅读原文

Bengio再创业筹3000万做AI安全

图灵奖得主Yoshua Bengio再创业，成立LawZero构建下一代AI系统，不做Agent，已筹3000万美元。其Scientist AI可作安全护栏、加速科研、助力强AI开发，他要把剩余时间投入AI安全。>阅读原文

Anthropic断供Windsurf模型

当地时间6月4日，Anthropic切断Windsurf Claude 3.x模型访问权限，此前也拒绝其使用Claude 4。有猜测与OpenAI收购Windsurf有关，Windsurf推SWE - 1与Anthropic竞争，引发双方矛盾。>阅读原文

LeCun：AI模型缺人类智能特质

Meta首席科学家LeCun：当前AI模型缺理解物理世界等四项人类智能特质，业界‘组合式’增强是‘打补丁’，Meta‘世界模型’及V-JEPA或带来突破，但V-JEPA还处早期。>阅读原文

王东升携奕斯伟冲击IPO

王东升：解决中国“缺屏”问题后投身造芯，创立奕斯伟计算聚焦RISC - V架构。该公司获4轮共90亿融资，此次递交招股书有望成“RISC - V第一股”，他还投资半导体产业链。>阅读原文

00 后黄祯创业服装 AI

00 后黄祯两度休学创业，先在威尼斯办加密艺术展未盈利。后创办 Chimer AI，从 SaaS 工具转向 Agent 与 SaaS 结合，面向海外服装从业者，获吴世春融资，强调关注真实交易需求。>阅读原文

产品应用

FreeTacMan：让机器人精细操作升级

OpenDriveLab：FreeTacMan将人类技能传机器，破解精细操作难题。它让人类“手把手”教机器人，还经触觉预训练提升性能，在多项任务中表现出色，给精细操作带来飞跃。>阅读原文

刘飞分享 AI 工具使用心得

刘飞：2025 年 AI 进入场景竞争深水区，作为内容创作者，约 50%工作被 AI 替代。生产力上，AI 用于深度整理、查漏补缺等；生活中，满足问答、阅读等需求，未来渗透率会提升。>阅读原文

网友：Manus视频生成比Sora好

Manus上架视频生成功能，能突破时长限制，以类似“拍电影”方式生成视频。网友认为是新创作方式，但效果待提升，有网友觉得它生成的玄幻大片比Sora好。>阅读原文

Anthropic：Claude 4 升级代码生成能力

Anthropic 发布 Claude 4 Sonnet 和 Claude 4 Opus 模型及 Claude Code 编程智能体与 SDK。模型功能强大，性能出色，扩展了大语言模型能力，早期应用成果亮眼。>阅读原文

新浪：AI重塑新闻与社交体验

新浪新闻接入DeepSeek推出「智慧小浪」，让新闻浏览更高效。微博「评论罗伯特」升级，加心理学数据、借鉴深度思考技术更像人。微博还打造多款爆款应用，「知微」大模型未来将更重要。>阅读原文

摩根士丹利AI攻克旧代码难题

摩根士丹利全球技术与运营负责人迈克·皮齐：自家AI工具DevGen.AI已审阅900万行旧代码，节省28万小时。虽转换代码需人工辅助，但能降低对旧语言开发者依赖，未来仍需软件人才。>阅读原文

Deep Search代码搜索方案规划

言犀介绍Deep Search和Deep Research，对比传统RAG。提出Deep Search代码检索方案，设计独特架构。未来计划开发专用代码搜索Agent，还将应用于CodeFuse提升功能效果。>阅读原文

Cursor 1.0：开启编程新体验

Cursor：1.0 版本正式发布，带来自动代码审查、Jupyter 支持、项目级 AI 记忆等功能，从‘辅助工具’进化为智能编程平台，AI 开发工作流迎新阶段。>阅读原文

华为优化MoE训练，效能跃升

华为：通过昇腾与鲲鹏算力协同，对MoE训练算子和内存进行优化，三大核心算子提速使系统吞吐提20%，Selective R/S让内存节省70%，为模型训练提供高效方案。>阅读原文

开源动态

谷歌开源Gemini级AI研究项目

谷歌开源'gemini-fullstack-langgraph-quickstart'项目，结合Gemini 2.5与LangGraph构建研究型AI代理。它经五步智能研究法输出答案，体现组合式架构、可解释设计等现代AI开发趋势。>阅读原文

开源MoonCast：让AI播客更自然

开源的MoonCast对话式语音合成模型，借助LLM让剧本既有干货又有人味，通过全面规模化策略提升音频自然度，实验显示其在双语长对话播客表现惊艳，接近真人效果。>阅读原文

上交大开源AI诊断测评集

上交大与SII：开源DiagnosisArena测评集评估AI诊断能力。结果显示，当前模型在复杂诊断任务中表现差，o3准确率仅51.12%，选择题不能反映真实水平，AI离像医生一样诊断还很远。>阅读原文

Hugging Face推轻量VLA模型

Hugging Face：推出轻量级开源VLA模型SmolVLA，能在消费级硬件运行。用公开数据集训练，架构优化，异步推理让响应更快，性能超部分大模型，推动机器人研究发展。>阅读原文

GPT - 4o解验证码成功率低

MetaAgentX团队：推出Open CaptchaWorld平台测试Agent解验证码能力，SOTA模型成功率低，像GPT - 4o也不行。该平台可揭示Agent短板，为模型设计指明新方向。>阅读原文

清华推出AI数学家框架

清华团队：推出AI Mathematician框架，可用于前沿数学研究，解决多个难题。虽当前有不足，但未来通过优化有望成数学研究核心驱动力。>阅读原文

阿里发布 WebDancer 革新检索

阿里通义实验室：传统检索技术有短板，推出 WebDancer 解决复杂检索问题。它经四阶段构建，测试成绩佳，未来将拓展工具、突破任务边界，是智能体革命起点。>阅读原文

Memvid：革新AI记忆管理

Memvid团队：Memvid把文本编码成视频，实现百万文本块亚秒级搜索，存储效率比传统数据库高10倍，依赖少、离线可用，可用于数字图书馆、企业知识管理等场景。>阅读原文

AReaL-boba²：异步 RL 训练系统开源

清华和蚂蚁团队开源 AReaL-boba²，全异步 RL 训练提速 2.77 倍，解决同步 RL 痛点，支持多轮 Agentic RL 训练，还给出算法改进保障收敛性能，助你轻松复现 SOTA 代码模型。>阅读原文

DeepEval：让 LLM 评测如写测试般简单

Confident AI 团队：DeepEval 是开源的 LLM 评测框架，用极简代码让评测像写 pytest 一样自然，内置多种指标，支持批量评测和 CI/CD 集成，助开发者构建自动化评测体系。>阅读原文

智源开源Video-XL-2搞定长视频

智源研究院等发布Video-XL-2：单卡搞定万帧视频理解，编码2048帧仅需12秒，在主流评测基准超轻量级开源模型，多场景应用潜力大。>阅读原文

算法论文

阿里VRAG - RL革新视觉信息处理

阿里巴巴通义实验室：VRAG - RL将强化学习用于多模态智能体训练，革新检索生成范式，提升视觉语言模型能力，还采用奖励机制优化，在多数据集表现出色，代码已开源。>阅读原文

语言模型每参数记3.6比特

Meta、DeepMind等团队研究发现，GPT系列语言模型每个参数记忆容量约3.6比特，达极限会开始泛化。研究还提出相关定律，且发现提升训练精度，模型容量仅略有提升。>阅读原文

IKEA：可偷RAG系统记忆

新加坡国立大学等团队：提出全新黑盒攻击方法IKEA，不依赖异常指令，经多数据集测试，它能高效提取RAG系统私有信息，揭示该系统潜在脆弱性。>阅读原文

EM方法：单样本超越强化学习

Ubiquant研究团队：无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能提升大模型推理表现，超越强化学习。EM适合基础模型、资源有限场景，不过也有过度自信等问题。>阅读原文

英伟达：小模型靠ProRL突破推理极限

英伟达研究指出，以往强化学习效果不佳，是因任务数据过度呈现和训练步数不足。其ProRL框架大幅提升训练步数，释放小模型潜力，还构建技术组合拳，证明长期稳定的强化学习能拓宽模型能力边界。>阅读原文

DeepMind：智能体即世界模型

DeepMind团队：智能体就是世界模型，实现人类水平智能体，世界模型是必需的，要实现通用智能，得解决学习准确世界模型的挑战。>阅读原文

OpenAI 论文提出高效张量计算法

OpenAI：提出 Linear Layouts 统一代数框架，解决 Triton 难题。将优化版 Triton 与基准版对比，在不同硬件平台测试，结果显示性能有不同程度提升，AMD GPU 因缺乏高效原语加速较低。>阅读原文

普林斯顿Alita颠覆通用智能体

普林斯顿大学推出Alita智能体，打破传统依赖预定义工具的模式，靠自主创造MCP工具提升性能，在GAIA测试中超越对手，其生成的MCP还能复用，为智能体发展指明新方向。>阅读原文

    </p>

官网：www.AiReadingHub.com