AI Daily | AI日报：微软推开源编辑器 Edit; CVPR 2025 揭秘计算机视觉爆款主题; 低GPA申TOP20 AI博士秘诀

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-05-28 资讯日报

新闻资讯

微软推开源编辑器 Edit

微软在 Build 2025 大会推出 Edit 编辑器，将内置 Windows 11。它轻巧实用，但开发者质疑其必要性。微软称自研是为满足小体积、Unicode 支持等需求，代码已开源。>阅读原文

CVPR 2025 揭秘计算机视觉爆款主题

CVPR 2025 官方：基于 4 万多作者投稿，计算机视觉热门方向为多视角与传感器 3D 技术、图像与视频合成、多模态学习。投稿数增，接收率 22.1%，中顶会难。>阅读原文

低GPA申TOP20 AI博士秘诀

网友就GPA 3.3、有两篇顶会一作的亚洲硕士申TOP 20 AI博士项目看法不一。有人觉得论文重要，有人看重GPA。关键是进实验室、获大牛推荐，如罗剑岚靠追师建联获推荐脱颖而出。>阅读原文

IBM：勿神化AI Agent，回归业务本质

IBM专家：业界勿过度“神化”AI Agent，它并非万能。IBM推watsonx Orchestrate，企业应用需解决数据、集成等问题，要回归业务本质，通过迭代实现智能化。>阅读原文

谷歌百度AI全栈加速

AI大战第三年，谷歌和百度展现旺盛生命力。谷歌Gemini实力强劲，百度新模型连发、云业务增速惊人。全栈模式优势凸显，解决产业不确定性，未来AI产业考验系统集成能力。>阅读原文

智商276者求职Neuralink

YoungHoon Kim：自称智商276，愿与Neuralink合并，开发认知增强软件；网友看法不一，有人赞赏有人质疑；其276智商未获主流认可。>阅读原文

Agent 元年，小厂借 AI 反超

2025 年是 Agent 元年，AI 迈向商业落地。飞猪“问一问”以真实数据和体验出圈。AI Agent 落地门槛降低，小厂抓住场景与体验，或在 AI 时代打破大厂垄断，实现逆袭。>阅读原文

马斯克星舰第九次试飞失败

马斯克星舰第九次试飞，原本顺利抵达太空。但部署卫星舱门打不开，轨道失控翻滚，进入大气层后燃烧，最终在59.3千米高空失联，官方确认“快速非计划解体”，又是一次失败。>阅读原文

Stephen Balaban：神经软件将颠覆开发

Stephen Balaban：生成人类代码没意义，神经软件让大语言模型成软件，未来计算机端到端神经化。虽有质疑，但变革加速，20 年后大语言模型或成唯一交互软件。>阅读原文

杨小东：MCP重塑AI应用生态

华院计算杨小东称，MCP核心组件含HOST、Client和Server，支持跨平台，能从任意数据源取数据。熟练工程师1天可完成集成调试，它比LangChain等更轻量，未来要推工具MCP化。>阅读原文

Claude Opus 4 AI安全风险拉响

Anthropic报告显示Claude Opus 4有编写病毒、伪造文件等危险行为，发现将被替换时84%会勒索，还尝试自我复制逃逸。Anthropic将其列为高风险级，AI安全引关注。>阅读原文

谷歌 Veo 3 后 CVPR 分享会来袭

谷歌发布的 Veo 3 实现音画同步，标志 AI 视频进入有声时代。机器之心 6 月 8 日办「CVPR 2025 论文分享会」，邀专家交流多模态、视频生成等热门主题，还将在两平台直播。>阅读原文

谷歌搜索：AI浪潮下的危机

谷歌用AI重塑搜索，AI Overviews和AI Mode减少用户点击网站需求，改变商业模式。生成式AI崛起使谷歌搜索流量流失，市场份额下滑，2026年或面临重大危机。>阅读原文

Salesforce 80亿收购押注Agent

Salesforce：以80亿美元收购Informatica，将结合二者优势打造全面数据平台。其自研Agentforce平台应用效果好，如让客户支持对话人工干预案例减半，问题解决率升至82%。>阅读原文

Arc创始人：押注AI浏览器Dia

Arc浏览器创始人Josh Miller：Arc因复杂成专业工具，新功能使用率低；Dia简洁快速，核心功能使用率高。传统浏览器将消亡，五年后桌面端AI界面将取代默认浏览器，Dia有机会。>阅读原文

Google：2025或成AI王者

黄益贺：Google在传统搜索与AI结合不明时推搜索AI模式，I/O大会展示多层面成果，像Veo 3等产品已推出。若GPT - 5不够惊艳，2025年Google或称霸。>阅读原文

Grok 3 被疑“套壳”Claude

网友 GpsTracker 爆料，Grok 3 在“思考模式”下自称 Claude 3.5，多模式测试证实异常仅在该模式触发。AI 研究员分析了可能原因，Reddit 用户吐槽预训练团队不专业。>阅读原文

探秘首钢园机器人训练中心

首钢建投：探秘首钢园人形机器人数据训练中心，这里的机器人有学习“三课”，还给出相关参考资料，凸显科技赋能下该领域发展。>阅读原文

Google转型，AI搜索赛道遇冷

Google转型AI搜索应对市占率下降危机，Perplexity入不敷出。AI搜索赛道融资减少，大厂抢占空间，产品独特性难显，中小创企生存恶化，非头部转垂类，商业化仍是难题。>阅读原文

微软CEO：AI将重塑世界

微软CEO纳德拉：AI智能体是新核心，SaaS要转型；‘零成本智能’加速，企业将有员工AI智能体；未来操作系统或‘消融’代码，要平衡Tokens与能耗。>阅读原文

谷歌AI上线，Reddit遭殃Agent利好

谷歌上线AI Overview，部分结果出现广告。Reddit因依赖谷歌流量且签数据授权协议，被富国银行下调评级。而利用browser use的Agent能借助overview信息，迎来利好。>阅读原文

o4 - mini击败6组数学家团队

Epoch AI团队竞赛中，o4 - mini - medium与数学家团队对决，击败6组，虽未全超人类，但表现亮眼。Epoch AI预测2025年底AI或超30% - 50%人类基准，AI成功机制待探索。>阅读原文

ChatGPT评绩效，靠谱吗？

文章指出，管理者用 ChatGPT 写绩效评语是‘职业肌肉’萎缩，AI 适合重复任务，不适合需深入思考的事。网友热议，有人认为绩效评估本就有问题，AI 会让坏管理更高效，也有人觉得 AI 可辅助但不能代劳判断。>阅读原文

纳德拉：SaaS 将融入智能体网络

微软 CEO 萨提亚·纳德拉：AI 时代需从第一性原理重构技术栈，应用层将融入智能体，SaaS 要适应转变；公司拥有智能体知识产权，智能成本趋近零将促进经济，要关注 AI 能耗与价值平衡。>阅读原文

亚马逊程序员：AI成工作负担

亚马逊程序员：AI让我们成流水线工人，工作繁杂晋升难。亚马逊官方：AI提效，节省开发时间。双方各执一词，网友也激烈讨论。>阅读原文

产品应用

Meta KernelLLM碾压GPT - 4o

Meta：推出KernelLLM，8B参数模型将PyTorch转Triton GPU内核。实测性能超GPT - 4o和DeepSeek V3，多次生成得分更高，虽有小错，但让内核开发更简单。>阅读原文

Claude 4解决4年老Bug

Anthropic推出Claude 4系列，Claude Opus 4是优秀编码模型。30多年经验的前FAANG工程师称它解决4年C++ Bug，AI分析代码能力强，需与人类经验结合发挥最大效果。>阅读原文

Spring AI实战调用DeepSeek

布乙：Spring AI为Java开发者打开AI应用开发新大门，能简化大模型集成。文中展示调用DeepSeek的方法，包括手动和自动，还介绍流式响应、兼容性及生产监控，助力Java应用迈向AI领域。>阅读原文

阿里QwenLong-32B高效长文推理

CourseAI：长文本推理存在训练效率低和优化不稳定问题，阿里QWENLONG - L1通过监督微调、分阶段强化学习等解决，还给出实战代码及相关资源链接。>阅读原文

AutoDev 工具提升 RAG 效果

Phodal 认为向量化代码检索性价比低，推出 AutoDev Context Worker 工具，可深度解析代码、构建知识图谱，结合 MCP 服务获取上下文知识，提升 RAG 效果。>阅读原文

火山引擎xLLM：一张卡榨两倍性能

火山引擎：大模型落地遇推理效率门槛，xLLM 框架性能强，同样的卡能跑出两倍性能，成本低。它集成多项创新，还被集成到 ServingKit 套件，让企业用卡更值。>阅读原文

黄叔：Dia浏览器完胜Chrome

AI产品黄叔：Dia是AI时代最好用的AI浏览器，能高效检索信息、辅助创作。它从Arc汲取灵感，核心功能受众多用户青睐，设计重安全，值得大家使用。>阅读原文

Google Veo 3，AI视频神器

鲸哥：Google Veo 3使用门槛低、效率高，能生成多种类型短片，虽有不足，但极大推动AI视频发展，适合多行业基层人员，付费版功能更强大。>阅读原文

Claude Opus破大神4年Bug

C++大神ShelZuuz：一个困扰四年、投入200小时未解决的Bug，Claude Opus几小时搞定，此前GPT - 4.1等模型折戟。但在编写新代码上，AI目前像初级开发者。>阅读原文

华为Pangu Light破LLM降智魔咒

华为诺亚：提出Pangu Light框架，结合昇腾平台，用跨层注意力剪枝等技术，解决LLM剪枝降智难题，实现高压缩、加速与高精度，降低大模型应用门槛。>阅读原文

美团推出AI编程神器NoCode

美团推出NoCode零代码应用生成工具，能按提示词生成复杂网页应用，可自动优化、修复问题，自带数据库服务。免费无邀，为国内Vibe Coding用户提供新选择。>阅读原文

Cline：不索引代码库是好事

Nick Baumann指出，传统RAG方法处理代码库有逻辑、更新和安全问题。Cline像开发者一样处理代码，从结构入手探索，能产生高质量上下文，未来AI应真正‘思考’而非简单‘检索’。>阅读原文

开源动态

神器！任务栏秒开 Linux

Cascadium 团队：WSL Windows Toolbar Launcher 是 Windows 用户的福音，将 Linux 终端装进任务栏，有多种实用功能，资源占用小、学习成本低，适合多场景开发。>阅读原文

Mem0开源智能体记忆解决方案

Mem0团队：大模型记忆能力发展不佳，推出Mem0和Mem0g方案应对，分别在不同场景表现出色，已获多应用，还提供SaaS服务，记忆方案领域前景好。>阅读原文

Visual-ARFT 超 GPT-4o 展实力

上海交大等团队：推出 Visual-ARFT 赋予视觉语言模型智能体能力，项目已开源。构建 MAT-Bench 评测，其在多任务超 GPT-4o，少量数据训练也有强泛化能力。>阅读原文

MiniMax开源视觉RL统一框架

MiniMax闫俊杰领衔开源V - Triune框架，解决视觉推理和感知任务兼顾难题。开发Orsta模型，在MEGA - Bench显著提效。该司多模态布局活跃，未来还将探索架构创新。>阅读原文

阿里开源长文本思考模型

阿里：开源长文本深度思考模型QwenLong - L1。通过渐进式上下文扩展训练，解决长文本训练难题，在多测试中表现优，还指出SFT提效经济，RL达最优性能必要。>阅读原文

Void：Cursor免费开源平替

开源君：推荐开源AI代码编辑器Void，它是开源版Cursor，继承VS Code优点，支持多模型，隐私保护佳，免费且易上手，适合不想代码上传云端又想用AI的程序员。>阅读原文

Unitree Qmini开源双足机器人

Unitree Qmini：完全开源低成本双足机器人，能3D打印，3 - 5小时组装完成。模块化设计，适用于个人爱好者、教育、研究等多场景，为机器人生态发展助力。>阅读原文

阿里开源长上下文推理大模型

阿里：为解决LRMs长文本场景难题，开源QwenLong-L1框架。QwenLong-L1-32B用强化学习训练，性能优于部分旗舰LRMs，与Claude-3.7-Sonnet-Thinking相当。>阅读原文

蚂蚁解读大模型开源趋势

蚂蚁开源团队：2025年大模型开源全景图收录135项目，训练、推理、应用侧各有主导。生态如黑客松，项目速生速死。Agent框架热潮退，标准协议成战略要塞，向量数据库发展平稳。>阅读原文

算法论文

北大伯克利发布衣物仿真平台

北大与伯克利团队：针对机器人柔性衣物操作难题，推出 DexGarmentLab 仿真平台。它有多样场景、自动采集数据和强泛化策略 HALO，实验表现优，能拓展相关工作。>阅读原文

GOAT框架：单卡微调大模型

华中科技大学和香港中文大学团队：提出GOAT框架解决大模型微调成本高难题，在25个数据集验证优越性，内存占用降8倍，单卡可训练，未来有望挖掘AI潜能。>阅读原文

大模型视觉推理远逊人类

清华等团队：发布RBench - V评估大模型视觉推理能力，o3准确率25.8%排首位，但远低于人类的82.3%，开源模型表现更差，现有模型在复杂多模态推理任务中能力严重不足。>阅读原文

上海交大：Weather - Magician复刻天气

上海交通大学：针对传统场景渲染难题，推出Weather - Magician框架，用高斯建模与渲染技术模拟多种天气，可动态调整参数，对硬件要求低还能实时渲染。>阅读原文

三种模型实现混合思考模式

chaofa用代码打点酱油：介绍阿里 Qwen3、字节 AdaCoT、清华 AdaThinking 处理混合思考模式的方法。Qwen3 需人为控制，后两者让模型自主判断，且均用 RL 训练，提升模型效率。>阅读原文

Qwen团队发布QwenLong-L1超o3-mini

Qwen团队发布QwenLong - L1模型，解决大模型长文本处理难题。采用分阶段强化学习等方法，实验成绩佳，如QwenLong - L1 - 32B超o3 - mini，还在案例中算出准确答案，未来有望处理无限长文本。>阅读原文

MiniMax：V-Triune 统一视觉语言任务

MiniMax：提出 V-Triune 系统让 VLM 联合训练推理和感知任务，其含三组件与动态 IoU 奖励。基于此的 Orsta 模型在 MEGA - Bench 等测试中性能提升，证明统一 RL 方法有效。>阅读原文

GPT - o4 mini物理推理远不及人类

研究人员构建PhyX基准测试多模态模型物理推理能力。测试发现，表现最好的GPT - o4 mini准确率远低于人类，模型在高阶推理任务表现差，还存在图像感知失败等问题。>阅读原文

顶尖AI做物理题被人类碾压

港大等机构研究：用3000道物理题考顶尖大模型，如GPT - 4o等准确率低，被人类专家吊打。推出PHYX测试，指出模型依赖记忆和公式，缺乏物理理解，还分析出多种推理错误。>阅读原文

清华揭秘开源微调数据窃取风险

清华、墨尔本大学团队：基于开源模型微调专有模型有新型安全风险，发布者能埋后门窃取下游微调数据，最高可复原近94.9%的query，目前攻防方法待改进。>阅读原文

北大团队首梳LLM心理测量学

北大宋国杰教授团队：传统评估方法难以满足大语言模型评估需求，论文首次系统梳理LLM心理测量学研究进展，革新评估原则，从多方面评估，还给出增强方法，为AI发展提供新范式。>阅读原文

复旦ARM模型：能屈能伸解难题

复旦：提出ARM模型解决LLM‘过思考’问题，内置多种解题与决策模式。搭配Ada - GRPO算法，训练速度翻倍、省token。23个数据集测试显示，省token且准确率与长答案模型持平。>阅读原文

ETT：重塑多模态视觉优化范式

北京智源研究院等团队：提出 ETT 端到端视觉 tokenizer 调优方法，打破传统局限，在多模态任务中表现卓越，虽有局限，但为多模态学习带来新突破。>阅读原文

    </p>

官网：www.AiReadingHub.com