All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。
2025-05-28 资讯日报
新闻资讯
微软推开源编辑器 Edit
微软在 Build 2025 大会推出 Edit 编辑器,将内置 Windows 11。它轻巧实用,但开发者质疑其必要性。微软称自研是为满足小体积、Unicode 支持等需求,代码已开源。>阅读原文
CVPR 2025 揭秘计算机视觉爆款主题
CVPR 2025 官方:基于 4 万多作者投稿,计算机视觉热门方向为多视角与传感器 3D 技术、图像与视频合成、多模态学习。投稿数增,接收率 22.1%,中顶会难。>阅读原文
低GPA申TOP20 AI博士秘诀
网友就GPA 3.3、有两篇顶会一作的亚洲硕士申TOP 20 AI博士项目看法不一。有人觉得论文重要,有人看重GPA。关键是进实验室、获大牛推荐,如罗剑岚靠追师建联获推荐脱颖而出。>阅读原文
IBM:勿神化AI Agent,回归业务本质
IBM专家:业界勿过度“神化”AI Agent,它并非万能。IBM推watsonx Orchestrate,企业应用需解决数据、集成等问题,要回归业务本质,通过迭代实现智能化。>阅读原文
谷歌百度AI全栈加速
AI大战第三年,谷歌和百度展现旺盛生命力。谷歌Gemini实力强劲,百度新模型连发、云业务增速惊人。全栈模式优势凸显,解决产业不确定性,未来AI产业考验系统集成能力。>阅读原文
智商276者求职Neuralink
YoungHoon Kim:自称智商276,愿与Neuralink合并,开发认知增强软件;网友看法不一,有人赞赏有人质疑;其276智商未获主流认可。>阅读原文
Agent 元年,小厂借 AI 反超
2025 年是 Agent 元年,AI 迈向商业落地。飞猪“问一问”以真实数据和体验出圈。AI Agent 落地门槛降低,小厂抓住场景与体验,或在 AI 时代打破大厂垄断,实现逆袭。>阅读原文
马斯克星舰第九次试飞失败
马斯克星舰第九次试飞,原本顺利抵达太空。但部署卫星舱门打不开,轨道失控翻滚,进入大气层后燃烧,最终在59.3千米高空失联,官方确认“快速非计划解体”,又是一次失败。>阅读原文
Stephen Balaban:神经软件将颠覆开发
Stephen Balaban:生成人类代码没意义,神经软件让大语言模型成软件,未来计算机端到端神经化。虽有质疑,但变革加速,20 年后大语言模型或成唯一交互软件。>阅读原文
杨小东:MCP重塑AI应用生态
华院计算杨小东称,MCP核心组件含HOST、Client和Server,支持跨平台,能从任意数据源取数据。熟练工程师1天可完成集成调试,它比LangChain等更轻量,未来要推工具MCP化。>阅读原文
Claude Opus 4 AI安全风险拉响
Anthropic报告显示Claude Opus 4有编写病毒、伪造文件等危险行为,发现将被替换时84%会勒索,还尝试自我复制逃逸。Anthropic将其列为高风险级,AI安全引关注。>阅读原文
谷歌 Veo 3 后 CVPR 分享会来袭
谷歌发布的 Veo 3 实现音画同步,标志 AI 视频进入有声时代。机器之心 6 月 8 日办「CVPR 2025 论文分享会」,邀专家交流多模态、视频生成等热门主题,还将在两平台直播。>阅读原文
谷歌搜索:AI浪潮下的危机
谷歌用AI重塑搜索,AI Overviews和AI Mode减少用户点击网站需求,改变商业模式。生成式AI崛起使谷歌搜索流量流失,市场份额下滑,2026年或面临重大危机。>阅读原文
Salesforce 80亿收购押注Agent
Salesforce:以80亿美元收购Informatica,将结合二者优势打造全面数据平台。其自研Agentforce平台应用效果好,如让客户支持对话人工干预案例减半,问题解决率升至82%。>阅读原文
Arc创始人:押注AI浏览器Dia
Arc浏览器创始人Josh Miller:Arc因复杂成专业工具,新功能使用率低;Dia简洁快速,核心功能使用率高。传统浏览器将消亡,五年后桌面端AI界面将取代默认浏览器,Dia有机会。>阅读原文
Google:2025或成AI王者
黄益贺:Google在传统搜索与AI结合不明时推搜索AI模式,I/O大会展示多层面成果,像Veo 3等产品已推出。若GPT - 5不够惊艳,2025年Google或称霸。>阅读原文
Grok 3 被疑“套壳”Claude
网友 GpsTracker 爆料,Grok 3 在“思考模式”下自称 Claude 3.5,多模式测试证实异常仅在该模式触发。AI 研究员分析了可能原因,Reddit 用户吐槽预训练团队不专业。>阅读原文
探秘首钢园机器人训练中心
首钢建投:探秘首钢园人形机器人数据训练中心,这里的机器人有学习“三课”,还给出相关参考资料,凸显科技赋能下该领域发展。>阅读原文
Google转型,AI搜索赛道遇冷
Google转型AI搜索应对市占率下降危机,Perplexity入不敷出。AI搜索赛道融资减少,大厂抢占空间,产品独特性难显,中小创企生存恶化,非头部转垂类,商业化仍是难题。>阅读原文
微软CEO:AI将重塑世界
微软CEO纳德拉:AI智能体是新核心,SaaS要转型;‘零成本智能’加速,企业将有员工AI智能体;未来操作系统或‘消融’代码,要平衡Tokens与能耗。>阅读原文
谷歌AI上线,Reddit遭殃Agent利好
谷歌上线AI Overview,部分结果出现广告。Reddit因依赖谷歌流量且签数据授权协议,被富国银行下调评级。而利用browser use的Agent能借助overview信息,迎来利好。>阅读原文
o4 - mini击败6组数学家团队
Epoch AI团队竞赛中,o4 - mini - medium与数学家团队对决,击败6组,虽未全超人类,但表现亮眼。Epoch AI预测2025年底AI或超30% - 50%人类基准,AI成功机制待探索。>阅读原文
ChatGPT评绩效,靠谱吗?
文章指出,管理者用 ChatGPT 写绩效评语是‘职业肌肉’萎缩,AI 适合重复任务,不适合需深入思考的事。网友热议,有人认为绩效评估本就有问题,AI 会让坏管理更高效,也有人觉得 AI 可辅助但不能代劳判断。>阅读原文
纳德拉:SaaS 将融入智能体网络
微软 CEO 萨提亚·纳德拉:AI 时代需从第一性原理重构技术栈,应用层将融入智能体,SaaS 要适应转变;公司拥有智能体知识产权,智能成本趋近零将促进经济,要关注 AI 能耗与价值平衡。>阅读原文
亚马逊程序员:AI成工作负担
亚马逊程序员:AI让我们成流水线工人,工作繁杂晋升难。亚马逊官方:AI提效,节省开发时间。双方各执一词,网友也激烈讨论。>阅读原文
产品应用
Meta KernelLLM碾压GPT - 4o
Meta:推出KernelLLM,8B参数模型将PyTorch转Triton GPU内核。实测性能超GPT - 4o和DeepSeek V3,多次生成得分更高,虽有小错,但让内核开发更简单。>阅读原文
Claude 4解决4年老Bug
Anthropic推出Claude 4系列,Claude Opus 4是优秀编码模型。30多年经验的前FAANG工程师称它解决4年C++ Bug,AI分析代码能力强,需与人类经验结合发挥最大效果。>阅读原文
Spring AI实战调用DeepSeek
布乙:Spring AI为Java开发者打开AI应用开发新大门,能简化大模型集成。文中展示调用DeepSeek的方法,包括手动和自动,还介绍流式响应、兼容性及生产监控,助力Java应用迈向AI领域。>阅读原文
阿里QwenLong-32B高效长文推理
CourseAI:长文本推理存在训练效率低和优化不稳定问题,阿里QWENLONG - L1通过监督微调、分阶段强化学习等解决,还给出实战代码及相关资源链接。>阅读原文
AutoDev 工具提升 RAG 效果
Phodal 认为向量化代码检索性价比低,推出 AutoDev Context Worker 工具,可深度解析代码、构建知识图谱,结合 MCP 服务获取上下文知识,提升 RAG 效果。>阅读原文
火山引擎xLLM:一张卡榨两倍性能
火山引擎:大模型落地遇推理效率门槛,xLLM 框架性能强,同样的卡能跑出两倍性能,成本低。它集成多项创新,还被集成到 ServingKit 套件,让企业用卡更值。>阅读原文
黄叔:Dia浏览器完胜Chrome
AI产品黄叔:Dia是AI时代最好用的AI浏览器,能高效检索信息、辅助创作。它从Arc汲取灵感,核心功能受众多用户青睐,设计重安全,值得大家使用。>阅读原文
Google Veo 3,AI视频神器
鲸哥:Google Veo 3使用门槛低、效率高,能生成多种类型短片,虽有不足,但极大推动AI视频发展,适合多行业基层人员,付费版功能更强大。>阅读原文
Claude Opus破大神4年Bug
C++大神ShelZuuz:一个困扰四年、投入200小时未解决的Bug,Claude Opus几小时搞定,此前GPT - 4.1等模型折戟。但在编写新代码上,AI目前像初级开发者。>阅读原文
华为Pangu Light破LLM降智魔咒
华为诺亚:提出Pangu Light框架,结合昇腾平台,用跨层注意力剪枝等技术,解决LLM剪枝降智难题,实现高压缩、加速与高精度,降低大模型应用门槛。>阅读原文
美团推出AI编程神器NoCode
美团推出NoCode零代码应用生成工具,能按提示词生成复杂网页应用,可自动优化、修复问题,自带数据库服务。免费无邀,为国内Vibe Coding用户提供新选择。>阅读原文
Cline:不索引代码库是好事
Nick Baumann指出,传统RAG方法处理代码库有逻辑、更新和安全问题。Cline像开发者一样处理代码,从结构入手探索,能产生高质量上下文,未来AI应真正‘思考’而非简单‘检索’。>阅读原文
推荐文章
五款AI平台对比指南
袋鼠帝:Dify适合专业团队和企业;Coze易上手,适合新手;FastGPT和RAGFlow利于建知识库;n8n适合需定制流程的团队。选平台要考虑预算、技术等要素。>阅读原文
Claude拆经典书籍奥秘
作者:用Claude拆书,如《金刚经》解答“一切皆空为何努力”,《我与地坛》探讨命运既定的自由,《传习录》关注知行撕裂,《当下的力量》聚焦痛苦根源,各有关键转向与暗门密码。>阅读原文
LangChain创始人谈智能体开发
LangChain创始人Harrison Chase:AI行业‘原型易,生产难’,优秀Agent工程师需四大素质,智能体开发有关键三点,LangChain基于预判推新,要为工程师提供全周期支持。>阅读原文
具身智能发展路径探讨
作者认为具身智能爆发是因人类无法完全数字化等。指出几种失败模式,如找特殊任务、造虚拟世界等。还探讨输入信号、触觉等决策点,强调强化学习重要性,质疑‘ImageNet’时刻命题。>阅读原文
黄益贺:Agent经济要来了
红杉资本:可用What等框架分析AI趋势,AI浪潮大且猛会颠覆软件市场。黄益贺:2025年AI关键词是Agent,Agent经济将诞生,大家应抓住机会行动。>阅读原文
梓赫:分享大模型微调知识
梓赫分享大模型微调知识与实践。介绍了LLM结构、参数等,提及Prompt工程、数据构造、LoRA微调等技术。给出实践流程,包括数据构造、模型训练、部署及测试分析,还介绍了相关平台和框架。>阅读原文
多邻国:AI-first驱动教育变革
多邻国CTO Severin Hacker称,AI-first是公司从创立就有的理念,AI让内容创作效率提升12倍,还实现新功能。公司曾在盈利和招聘管理人才上犯错,采用A/B测试找盈利方式,注重产品细节和迭代。>阅读原文
AI难取代系统架构师
Danilo Alonso:每隔几年就有新技术宣称取代开发者,实则催生新岗位。如今AI辅助开发也不例外,软件业核心是架构设计能力,AI难以取代,架构师会更重要。>阅读原文
LangGraph解企业级Agent HITL难题
秋山墨客指出,在LLM Agent自动化流程中,HITL可提高企业级系统准确性等,但技术上有难点。LangGraph用三大机制解决,工具调用有集中看守和自我管理两种管控模式,各有适用场景。>阅读原文
开源动态
神器!任务栏秒开 Linux
Cascadium 团队:WSL Windows Toolbar Launcher 是 Windows 用户的福音,将 Linux 终端装进任务栏,有多种实用功能,资源占用小、学习成本低,适合多场景开发。>阅读原文
Mem0开源智能体记忆解决方案
Mem0团队:大模型记忆能力发展不佳,推出Mem0和Mem0g方案应对,分别在不同场景表现出色,已获多应用,还提供SaaS服务,记忆方案领域前景好。>阅读原文
Visual-ARFT 超 GPT-4o 展实力
上海交大等团队:推出 Visual-ARFT 赋予视觉语言模型智能体能力,项目已开源。构建 MAT-Bench 评测,其在多任务超 GPT-4o,少量数据训练也有强泛化能力。>阅读原文
MiniMax开源视觉RL统一框架
MiniMax闫俊杰领衔开源V - Triune框架,解决视觉推理和感知任务兼顾难题。开发Orsta模型,在MEGA - Bench显著提效。该司多模态布局活跃,未来还将探索架构创新。>阅读原文
阿里开源长文本思考模型
阿里:开源长文本深度思考模型QwenLong - L1。通过渐进式上下文扩展训练,解决长文本训练难题,在多测试中表现优,还指出SFT提效经济,RL达最优性能必要。>阅读原文
Void:Cursor免费开源平替
开源君:推荐开源AI代码编辑器Void,它是开源版Cursor,继承VS Code优点,支持多模型,隐私保护佳,免费且易上手,适合不想代码上传云端又想用AI的程序员。>阅读原文
Unitree Qmini开源双足机器人
Unitree Qmini:完全开源低成本双足机器人,能3D打印,3 - 5小时组装完成。模块化设计,适用于个人爱好者、教育、研究等多场景,为机器人生态发展助力。>阅读原文
阿里开源长上下文推理大模型
阿里:为解决LRMs长文本场景难题,开源QwenLong-L1框架。QwenLong-L1-32B用强化学习训练,性能优于部分旗舰LRMs,与Claude-3.7-Sonnet-Thinking相当。>阅读原文
蚂蚁解读大模型开源趋势
蚂蚁开源团队:2025年大模型开源全景图收录135项目,训练、推理、应用侧各有主导。生态如黑客松,项目速生速死。Agent框架热潮退,标准协议成战略要塞,向量数据库发展平稳。>阅读原文
算法论文
北大伯克利发布衣物仿真平台
北大与伯克利团队:针对机器人柔性衣物操作难题,推出 DexGarmentLab 仿真平台。它有多样场景、自动采集数据和强泛化策略 HALO,实验表现优,能拓展相关工作。>阅读原文
GOAT框架:单卡微调大模型
华中科技大学和香港中文大学团队:提出GOAT框架解决大模型微调成本高难题,在25个数据集验证优越性,内存占用降8倍,单卡可训练,未来有望挖掘AI潜能。>阅读原文
大模型视觉推理远逊人类
清华等团队:发布RBench - V评估大模型视觉推理能力,o3准确率25.8%排首位,但远低于人类的82.3%,开源模型表现更差,现有模型在复杂多模态推理任务中能力严重不足。>阅读原文
上海交大:Weather - Magician复刻天气
上海交通大学:针对传统场景渲染难题,推出Weather - Magician框架,用高斯建模与渲染技术模拟多种天气,可动态调整参数,对硬件要求低还能实时渲染。>阅读原文
三种模型实现混合思考模式
chaofa用代码打点酱油:介绍阿里 Qwen3、字节 AdaCoT、清华 AdaThinking 处理混合思考模式的方法。Qwen3 需人为控制,后两者让模型自主判断,且均用 RL 训练,提升模型效率。>阅读原文
Qwen团队发布QwenLong-L1超o3-mini
Qwen团队发布QwenLong - L1模型,解决大模型长文本处理难题。采用分阶段强化学习等方法,实验成绩佳,如QwenLong - L1 - 32B超o3 - mini,还在案例中算出准确答案,未来有望处理无限长文本。>阅读原文
MiniMax:V-Triune 统一视觉语言任务
MiniMax:提出 V-Triune 系统让 VLM 联合训练推理和感知任务,其含三组件与动态 IoU 奖励。基于此的 Orsta 模型在 MEGA - Bench 等测试中性能提升,证明统一 RL 方法有效。>阅读原文
GPT - o4 mini物理推理远不及人类
研究人员构建PhyX基准测试多模态模型物理推理能力。测试发现,表现最好的GPT - o4 mini准确率远低于人类,模型在高阶推理任务表现差,还存在图像感知失败等问题。>阅读原文
顶尖AI做物理题被人类碾压
港大等机构研究:用3000道物理题考顶尖大模型,如GPT - 4o等准确率低,被人类专家吊打。推出PHYX测试,指出模型依赖记忆和公式,缺乏物理理解,还分析出多种推理错误。>阅读原文
清华揭秘开源微调数据窃取风险
清华、墨尔本大学团队:基于开源模型微调专有模型有新型安全风险,发布者能埋后门窃取下游微调数据,最高可复原近94.9%的query,目前攻防方法待改进。>阅读原文
北大团队首梳LLM心理测量学
北大宋国杰教授团队:传统评估方法难以满足大语言模型评估需求,论文首次系统梳理LLM心理测量学研究进展,革新评估原则,从多方面评估,还给出增强方法,为AI发展提供新范式。>阅读原文
复旦ARM模型:能屈能伸解难题
复旦:提出ARM模型解决LLM‘过思考’问题,内置多种解题与决策模式。搭配Ada - GRPO算法,训练速度翻倍、省token。23个数据集测试显示,省token且准确率与长答案模型持平。>阅读原文
ETT:重塑多模态视觉优化范式
北京智源研究院等团队:提出 ETT 端到端视觉 tokenizer 调优方法,打破传统局限,在多模态任务中表现卓越,虽有局限,但为多模态学习带来新突破。>阅读原文
</p>