All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。
2025-06-05 资讯日报
新闻资讯
陶哲轩:AI改写数学研究规则
陶哲轩:AlphaEvolve与人类一个月三破18年数学难题,和差集指数θ提升。AI‘广度扫描’与人类‘深度打磨’互补,预示科学发现新纪元,人机共舞探索未知。>阅读原文
Bengio创办组织专治AI风险
Yoshua Bengio:成立非营利组织LawZero,探索更安全AI方法,研发「Scientist AI」,不具行动性,目标是理解世界,避免人类陷入AI风险,强调AI应保护人类幸福与价值。>阅读原文
奥特曼:千倍算力模型这样用
奥特曼:理想AGI能自主发现新科学、解决问题。下一代模型应小型却具强推理力。若算力增千倍,可让模型决定资源利用,也可增加测试计算资源攻克难题。>阅读原文
InfoQ发布推理模型测评报告
InfoQ研究中心:5月29日发布《推理模型综合测评报告2025》,用300题测8大模型,总结各维度表现,梳理趋势。6月6日20:00直播解读,欢迎预约。>阅读原文
Karpathy:软件需为AI开后门
Karpathy称复杂UI无脚本软件将淘汰,给出风险清单。他分享AI编程心法,强调控制和验证重要性,指出编程关键在判别而非生成,软件要为AI开放接口,开发者要掌握正确节奏。>阅读原文
Andrej Karpathy:这类软件要凉
Andrej Karpathy:复杂UI、缺脚本支持且基于自定义二进制格式的软件前景差。Adobe等产品风险高,不主动改造以适配AI的产品处境艰难。>阅读原文
Andrej Karpathy评Veo 3视频生成
Andrej Karpathy:Veo 3这类模型让视频可直接优化,将成AI与人类交流绝佳界面,但‘最优’样子或非我们喜欢;众人看法不一,有人期待,有人担忧。>阅读原文
Snowflake收购增强AI Agent能力
Snowflake:收购Crunchy Data,发布Snowflake Postgres,满足企业级AI需求,具安全合规等特色功能,推动自身成企业数据负载终极地。Landing AI首席执行官:集成有巨大影响。>阅读原文
小米音箱撬动千亿IoT生意
小米:智能音箱虽市场下滑,但集成Mesh网关的它撬动了千亿IoT业务。IoT业务解决线下渠道难题,产品思路转变让其在今年一季度营收猛增,成手机业务重要补充。>阅读原文
00后女孩AI量化创业估值3亿
00后中国女孩洪乐潼:以数学AI创业,0产品0用户就想拿下3 - 5亿美元估值,正筹5000万美元融资,要为量化和对冲基金公司提供模型能力。>阅读原文
Anthropic断供Windsurf Claude模型
Anthropic切断Windsurf对Claude 3.x模型的直接访问权限,此前也拒绝提供Claude 4支持。网友猜测或因OpenAI收购Windsurf,有用户退订,Windsurf推出SWE - 1模型应对。>阅读原文
数学家反超AI破数学难题
DeepMind AlphaEvolve打破集合和差问题18年纪录,匈牙利数学家Gerbicz、华人博士后Fan Zheng先后改进结果。陶哲轩认为AI与人类方法互补,非零和博弈,能推动数学进步。>阅读原文
Reddit起诉Anthropic非法用数据
Reddit:Anthropic未经同意非法访问网站10万次,用用户数据训练AI,违反合同和商业道德。其他巨头都遵守规则,此次起诉要赔偿并让其履约。>阅读原文
吴恩达谈企业构建Agent要点
吴恩达:别纠结是否为Agent,关注‘Agentic’;构建Agent有任务拆解等挑战,AI工具应模块化;评估系统等领域被低估;MCP和Agent间通信尚早;AI创业需团队执行快、有技术理解力。>阅读原文
STAR团队:揭秘MCP重绑定攻击
STAR团队:发现MCP重绑定攻击,结合DNS重绑定与MCP。钓鱼后黑客能借浏览器执行本地命令,如窃取环境变量。建议MCP服务器强制身份验证、绑定会话令牌等防攻击。>阅读原文
米高梅将拍OpenAI宫斗电影
米高梅要将OpenAI高层争斗拍成电影《Artificial》,今年夏天开拍。演员阵容待定,网友对奥特曼等角色人选看法不一,而OpenAI宫斗本身抓马,奥特曼曾48小时极限逆转。>阅读原文
SK海力士登顶全球DRAM市场
市场报告显示,今年一季度SK海力士登顶全球DRAM市场,市占率超三星、美光。借AI浪潮,其HBM需求旺。美光、三星眼馋,在该领域奋起直追。>阅读原文
Windsurf遭Claude断供,AI编程大战升级
Windsurf联创兼CEO:Anthropic无预警减少Claude模型服务配额。Windsurf官方:将采取措施应对,担心此举损自身及业内。Anthropic:优先为持续合作伙伴供资源。>阅读原文
陆璐携手昇腾筑算力生态
陆璐教授:团队针对国外算力‘卡脖子’,与昇腾合作优化性能,成果用于开源和产品。他认为算力生态建设要夯实算子库、建模板库、优化编译器,还要注重人才培养。>阅读原文
Replit怒批Lovable安全漏洞
Replit员工指“欧洲版Cursor”Lovable有安全漏洞,扫描发现170款应用可让人访问用户信息。多位工程师“黑入”,Lovable虽改进但未解决根本问题,氛围编码安全责任引关注。>阅读原文
OpenAI:ChatGPT更新多项功能
OpenAI:ChatGPT更新,深度研究加连接器,能连企业和个人数据源;新增录音模式,自动整理内容。还调整定价,Enterprise用户即日可用新功能,Team用户未来几周推出。>阅读原文
Bengio再创业筹3000万做AI安全
图灵奖得主Yoshua Bengio再创业,成立LawZero构建下一代AI系统,不做Agent,已筹3000万美元。其Scientist AI可作安全护栏、加速科研、助力强AI开发,他要把剩余时间投入AI安全。>阅读原文
Anthropic断供Windsurf模型
当地时间6月4日,Anthropic切断Windsurf Claude 3.x模型访问权限,此前也拒绝其使用Claude 4。有猜测与OpenAI收购Windsurf有关,Windsurf推SWE - 1与Anthropic竞争,引发双方矛盾。>阅读原文
LeCun:AI模型缺人类智能特质
Meta首席科学家LeCun:当前AI模型缺理解物理世界等四项人类智能特质,业界‘组合式’增强是‘打补丁’,Meta‘世界模型’及V-JEPA或带来突破,但V-JEPA还处早期。>阅读原文
王东升携奕斯伟冲击IPO
王东升:解决中国“缺屏”问题后投身造芯,创立奕斯伟计算聚焦RISC - V架构。该公司获4轮共90亿融资,此次递交招股书有望成“RISC - V第一股”,他还投资半导体产业链。>阅读原文
00 后黄祯创业服装 AI
00 后黄祯两度休学创业,先在威尼斯办加密艺术展未盈利。后创办 Chimer AI,从 SaaS 工具转向 Agent 与 SaaS 结合,面向海外服装从业者,获吴世春融资,强调关注真实交易需求。>阅读原文
产品应用
FreeTacMan:让机器人精细操作升级
OpenDriveLab:FreeTacMan将人类技能传机器,破解精细操作难题。它让人类“手把手”教机器人,还经触觉预训练提升性能,在多项任务中表现出色,给精细操作带来飞跃。>阅读原文
刘飞分享 AI 工具使用心得
刘飞:2025 年 AI 进入场景竞争深水区,作为内容创作者,约 50%工作被 AI 替代。生产力上,AI 用于深度整理、查漏补缺等;生活中,满足问答、阅读等需求,未来渗透率会提升。>阅读原文
网友:Manus视频生成比Sora好
Manus上架视频生成功能,能突破时长限制,以类似“拍电影”方式生成视频。网友认为是新创作方式,但效果待提升,有网友觉得它生成的玄幻大片比Sora好。>阅读原文
Anthropic:Claude 4 升级代码生成能力
Anthropic 发布 Claude 4 Sonnet 和 Claude 4 Opus 模型及 Claude Code 编程智能体与 SDK。模型功能强大,性能出色,扩展了大语言模型能力,早期应用成果亮眼。>阅读原文
新浪:AI重塑新闻与社交体验
新浪新闻接入DeepSeek推出「智慧小浪」,让新闻浏览更高效。微博「评论罗伯特」升级,加心理学数据、借鉴深度思考技术更像人。微博还打造多款爆款应用,「知微」大模型未来将更重要。>阅读原文
摩根士丹利AI攻克旧代码难题
摩根士丹利全球技术与运营负责人迈克·皮齐:自家AI工具DevGen.AI已审阅900万行旧代码,节省28万小时。虽转换代码需人工辅助,但能降低对旧语言开发者依赖,未来仍需软件人才。>阅读原文
Deep Search代码搜索方案规划
言犀介绍Deep Search和Deep Research,对比传统RAG。提出Deep Search代码检索方案,设计独特架构。未来计划开发专用代码搜索Agent,还将应用于CodeFuse提升功能效果。>阅读原文
Cursor 1.0:开启编程新体验
Cursor:1.0 版本正式发布,带来自动代码审查、Jupyter 支持、项目级 AI 记忆等功能,从‘辅助工具’进化为智能编程平台,AI 开发工作流迎新阶段。>阅读原文
华为优化MoE训练,效能跃升
华为:通过昇腾与鲲鹏算力协同,对MoE训练算子和内存进行优化,三大核心算子提速使系统吞吐提20%,Selective R/S让内存节省70%,为模型训练提供高效方案。>阅读原文
推荐文章
刘志毅:智能体重塑工作与生活
刘志毅在《智能体时代》指出,智能体使工作时空重构、原子化,挑战传统职业身份,工作与生活边界模糊。人类要掌握系统思维等元技能,与智能体协作,适应新工作范式。>阅读原文
刘国瑞:AI先驱多来自信号处理
刘国瑞称AI先驱多源于信号处理,如辛顿、杨立昆。他60多岁创业投身无线AI,认为应坚守初心做科研。他鼓励年轻人追梦,还指出AI虽有风险但不必过度恐慌,会催生新岗位。>阅读原文
Sarah Guo:品味是AI创业壁垒
硅谷投资人Sarah Guo指出,AI时代品味是稀缺资源,它让产品传递理念且难以复制。品味非速度对立面,是决策复合效应,打造时要付出代价,可通过系统规模化,但在部分市场并非主导。>阅读原文
618换电脑跑AI的建议
作者建议,想在618换电脑跑AI,要考虑模型参数量、显存等,本地跑模型能保障隐私且免费。企业可选云端部署,个人偶尔用可租服务器,还推荐了不同预算的笔记本。>阅读原文
揭秘大模型Token的奥秘
作者:大模型收到文字后,分词器会将其切成Token。不同分词器切分方法和结果不同,合理切分可提高大模型效率。大模型按Token数量计费,因其对应计算成本。>阅读原文
开源动态
谷歌开源Gemini级AI研究项目
谷歌开源'gemini-fullstack-langgraph-quickstart'项目,结合Gemini 2.5与LangGraph构建研究型AI代理。它经五步智能研究法输出答案,体现组合式架构、可解释设计等现代AI开发趋势。>阅读原文
开源MoonCast:让AI播客更自然
开源的MoonCast对话式语音合成模型,借助LLM让剧本既有干货又有人味,通过全面规模化策略提升音频自然度,实验显示其在双语长对话播客表现惊艳,接近真人效果。>阅读原文
上交大开源AI诊断测评集
上交大与SII:开源DiagnosisArena测评集评估AI诊断能力。结果显示,当前模型在复杂诊断任务中表现差,o3准确率仅51.12%,选择题不能反映真实水平,AI离像医生一样诊断还很远。>阅读原文
Hugging Face推轻量VLA模型
Hugging Face:推出轻量级开源VLA模型SmolVLA,能在消费级硬件运行。用公开数据集训练,架构优化,异步推理让响应更快,性能超部分大模型,推动机器人研究发展。>阅读原文
GPT - 4o解验证码成功率低
MetaAgentX团队:推出Open CaptchaWorld平台测试Agent解验证码能力,SOTA模型成功率低,像GPT - 4o也不行。该平台可揭示Agent短板,为模型设计指明新方向。>阅读原文
清华推出AI数学家框架
清华团队:推出AI Mathematician框架,可用于前沿数学研究,解决多个难题。虽当前有不足,但未来通过优化有望成数学研究核心驱动力。>阅读原文
阿里发布 WebDancer 革新检索
阿里通义实验室:传统检索技术有短板,推出 WebDancer 解决复杂检索问题。它经四阶段构建,测试成绩佳,未来将拓展工具、突破任务边界,是智能体革命起点。>阅读原文
Memvid:革新AI记忆管理
Memvid团队:Memvid把文本编码成视频,实现百万文本块亚秒级搜索,存储效率比传统数据库高10倍,依赖少、离线可用,可用于数字图书馆、企业知识管理等场景。>阅读原文
AReaL-boba²:异步 RL 训练系统开源
清华和蚂蚁团队开源 AReaL-boba²,全异步 RL 训练提速 2.77 倍,解决同步 RL 痛点,支持多轮 Agentic RL 训练,还给出算法改进保障收敛性能,助你轻松复现 SOTA 代码模型。>阅读原文
DeepEval:让 LLM 评测如写测试般简单
Confident AI 团队:DeepEval 是开源的 LLM 评测框架,用极简代码让评测像写 pytest 一样自然,内置多种指标,支持批量评测和 CI/CD 集成,助开发者构建自动化评测体系。>阅读原文
智源开源Video-XL-2搞定长视频
智源研究院等发布Video-XL-2:单卡搞定万帧视频理解,编码2048帧仅需12秒,在主流评测基准超轻量级开源模型,多场景应用潜力大。>阅读原文
算法论文
阿里VRAG - RL革新视觉信息处理
阿里巴巴通义实验室:VRAG - RL将强化学习用于多模态智能体训练,革新检索生成范式,提升视觉语言模型能力,还采用奖励机制优化,在多数据集表现出色,代码已开源。>阅读原文
语言模型每参数记3.6比特
Meta、DeepMind等团队研究发现,GPT系列语言模型每个参数记忆容量约3.6比特,达极限会开始泛化。研究还提出相关定律,且发现提升训练精度,模型容量仅略有提升。>阅读原文
IKEA:可偷RAG系统记忆
新加坡国立大学等团队:提出全新黑盒攻击方法IKEA,不依赖异常指令,经多数据集测试,它能高效提取RAG系统私有信息,揭示该系统潜在脆弱性。>阅读原文
EM方法:单样本超越强化学习
Ubiquant研究团队:无监督的熵最小化(EM)方法仅需一条未标注数据和约10步优化,就能提升大模型推理表现,超越强化学习。EM适合基础模型、资源有限场景,不过也有过度自信等问题。>阅读原文
英伟达:小模型靠ProRL突破推理极限
英伟达研究指出,以往强化学习效果不佳,是因任务数据过度呈现和训练步数不足。其ProRL框架大幅提升训练步数,释放小模型潜力,还构建技术组合拳,证明长期稳定的强化学习能拓宽模型能力边界。>阅读原文
DeepMind:智能体即世界模型
DeepMind团队:智能体就是世界模型,实现人类水平智能体,世界模型是必需的,要实现通用智能,得解决学习准确世界模型的挑战。>阅读原文
OpenAI 论文提出高效张量计算法
OpenAI:提出 Linear Layouts 统一代数框架,解决 Triton 难题。将优化版 Triton 与基准版对比,在不同硬件平台测试,结果显示性能有不同程度提升,AMD GPU 因缺乏高效原语加速较低。>阅读原文
普林斯顿Alita颠覆通用智能体
普林斯顿大学推出Alita智能体,打破传统依赖预定义工具的模式,靠自主创造MCP工具提升性能,在GAIA测试中超越对手,其生成的MCP还能复用,为智能体发展指明新方向。>阅读原文
</p>