AI Daily | AI日报：Grok 3 自称 Claude 引争议; Z世代：具身智能弄潮儿; AI编码强，通用能力遇瓶颈

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。

2025-06-04 资讯日报

新闻资讯

Grok 3 自称 Claude 引争议

网友 GpsTracker：Grok 3 在“思考模式”下自称 Claude，还坚称身份。研究员指或因路由漏洞、数据混入等。Reddit 用户吐槽 Grok 预训练团队不专业。>阅读原文

Z世代：具身智能弄潮儿

三位具身智能领域Z世代各有见解。谭恒楷认为要靠非共识突破，直指action数据稀缺本质；吴铭东强调真机强化学习，警惕人类过度依赖AI；王乾旭追求科研快乐，探索统一数据表示方式。>阅读原文

AI编码强，通用能力遇瓶颈

作者复盘2025上半年AI发展：虽编码、多模态能力提升，但模型出现第二轮瓶颈，编码强时通用能力‘拉胯’，或因RL用编程数据，红杉新基准或促模型均衡。>阅读原文

DeepSeek R1医疗评测夺冠

斯坦福评测显示，在含35个基准测试的MedHELM评估中，DeepSeek R1以66%胜率领先，o3 - mini等紧随。不同模型在各任务表现有差异，Claude 3.5和3.7 Sonnet性价比不错。>阅读原文

讯飞与昇腾携手炼就大模型

科大讯飞AI工程院院长潘青华称，讯飞与昇腾合作历经四阶段，实现性能突破。双方软硬件协同，加速大模型落地。未来，‘星火加昇腾’将树立新标杆。>阅读原文

软银英特尔联手造AI芯片

软银与英特尔：成立Saimemory开发AI存储芯片，投资7000万美元。软银想获适配数据中心芯片，英特尔欲重返内存市场，若方案普及或打破HBM市场格局。>阅读原文

AI音乐欺诈成行业毒瘤

2024年音乐市场繁荣，AI却成欺诈利器。Michael Smith用AI创作假歌获利近亿，面临多项指控。如今诈骗者批量投假歌，平台虽反击但成效差，版权保护难度大。>阅读原文

AI造谣频发，谷歌出手应对

池建强：移动互联网加速谣言传播，AI生成内容更难辨真假，如易建联被造谣、AI生成逼真图片等，谷歌有检测水印技术，呼吁大公司应对AI时代新问题。>阅读原文

GPT - 5或7月上线，奥特曼谈AI前景

多方爆料OpenAI或7月推GPT - 5，奥特曼确认o3 pro将至。有人期待其飞跃，也有内部预警提升有限。奥特曼称AI会带来巨变，应服务个人意志，助力解决多领域问题。>阅读原文

杭州峰会选拔AI未来新星

2025全球人工智能技术大会6月6 - 8日在杭州召开，戴琼海等院士带来演讲。6月7日首届“清源学者”峰会启幕，15位青年学者分享成果，学会将助力其科研与转化。>阅读原文

Anthropic CEO：AI 或吞噬初级白领岗位

Anthropic CEO Dario Amodei：未来五年半数初级白领岗位或被 AI 吞噬，失业率或达 20%。风投机构报告显示初级岗位招聘量锐减，业内建议求职者把 AI 当助手，快速成长。>阅读原文

Andrej Karpathy分享ChatGPT选模指南

Andrej Karpathy：o3处理重要任务最佳，分享模型选择策略。社区用户热烈讨论，反馈o4 - mini表现，高级用户分享复杂玩法，指出各模型适用场景及优缺点。>阅读原文

优步完成 Kubernetes 大规模迁移

优步：完成从 Apache Mesos 到 Kubernetes 的大规模迁移。虽面临技术、文化挑战，但带来运营效率、资源利用率提升等好处，为大公司转型提供案例。>阅读原文

马斯克xAI拟售3亿美元股权

马斯克旗下xAI：正以1130亿美元估值出售3亿美元股权，若融资成功将跻身全球前列。它与X合并，产品Grok AI功能强大，能提供实时信息、多模态交互等服务。>阅读原文

吴恩达：削减科研经费损国力

吴恩达：美国拟削减科研经费将影响竞争力，资助科研对美国益处大，知识在本地传播快。中国科技生态开放发展迅速，呼吁美国坚守资助科研模式。>阅读原文

海光曙光合并，国产算力格局或变天

正解局：美国切断部分对华半导体技术出口，国内海光信息与中科曙光合并。当下中美算力竞争聚焦‘生态’，美国以市场渗透锁定全球，中国‘高筑墙，广积粮’打造全链条。>阅读原文

扩散模型改写AI模型范式

Google DeepMind用扩散技术探索语言模型新方向。蚂蚁集团和人大推出的LLaDA表现出色，成研究常用基础模型。国内团队在扩散式多模态LLM研究跻身前列，期待早日应用。>阅读原文

谷歌AI应用实测褒贬不一

谷歌推出 Google AI Edge Gallery 应用，能离线运行 AI 模型。网友评价两极分化，有人手机崩溃，也有人运行良好。还有人认为它落后 CoreML，其目标受众或为需跨平台部署模型的开发者。>阅读原文

OpenAI推ChatGPT免费记忆功能

OpenAI的Sam Altamn：从今日起为免费版ChatGPT提供轻量级记忆功能，未来会改进。此功能能个性化回答，对多领域帮助大，还介绍了使用方法和常见问答。>阅读原文

产品应用

谷歌AI Studio视频对话支持中文

谷歌AI Studio实时视频对话支持中文，有Gemini 2.5 Flash加持。相比ChatGPT Plus限制少，使用方便。可用于多场景，但存在说话慢、废话多等问题。>阅读原文

Character.ai上线视频生成功能

Character.ai：上线视频生成功能AvatarFX，让图片人物说话唱歌，多轮对话也稳定。谷歌收购它遭反垄断调查，此前创始人等核心人员已回归谷歌。>阅读原文

华为3招让MoE训练提速70%

华为：为突破MoE训练瓶颈，构建Adaptive Pipe & EDPB优化方案，打造DeployMind仿真平台，解决通信等待和负载不均问题，让Pangu Ultra MoE 718B模型训练吞吐提升72.6%。>阅读原文

FLUX Kontext 搞定图片难题

歸藏的 AI 工具箱：黑森林工作室发布的 FLUX Kontext 模型很强大，能精细修改图片、去水印、生成商品图等，还可美颜美体，且价格便宜，未来还将开源降低成本。>阅读原文

阿里WebDancer助力信息检索

阿里巴巴通义实验室：推出WebDancer，一种原生信息检索的Agentic Model。它经多阶段训练，在GAIA和WebWalkerQA测试中表现佳，为解决复杂网络信息检索问题带来新可能。>阅读原文

YouWare：让AI编程人人可及

YouWare创始人明超平：AI时代需新创作载体，YouWare应运而生。它让非程序员也能创作网页并分享，将AI Coding从专业变为通用，平台项目已达数十万。>阅读原文

开源动态

李飞飞公司开源3D渲染核心技术

李飞飞创立的World Labs：开源Forge渲染器，能在各设备流畅渲染AI生成的3D世界，解决3DGS渲染限制，还可多视角渲染，公司目标是推三维世界多模态AI产品。>阅读原文

II - Agent 开源平替闭源 Agent

CourseAI：2025 是 Agent 之年。Manus、GenSpark AI 是闭源代理佼佼者，而开源的 II - Agent 功能与它们相当，有强大架构和多种能力，在 GAIA 基准测试表现不错。>阅读原文

Onlook：前端开发革命性工具

Onlook这款开源工具爆火，号称‘设计师的Cursor’。它能让用户拖拽构建前端界面，AI实时生成代码，实现设计与代码双向同步，解决设计与开发割裂问题，适合多类人群。>阅读原文

BioReason：基因推理AI新突破

多伦多大学团队发布BioReason，全球首个基因推理AI。它融合DNA与大语言模型，准确率飙升至97%，能解释致病机制。有望在Hugging Face上线，用于个性化癌症治疗等。>阅读原文

阿里VRAG - RL框架性能飙升30%

阿里通义实验室：推出VRAG - RL框架，解决传统RAG视觉处理难题。通过创新机制提升视觉语言模型性能，在多数据集表现佳，后续将向更拟人化和低幻觉方向发展。>阅读原文

微软开源AI量化神器Qlib

微软：开源AI量化神器Qlib，支持多种机器学习范式，解决量化投资难题。它有完整流程和多样工作流，还提供应对挑战方案，数据处理性能优越。>阅读原文

新框架让推理模型告别过度思考

浙大等团队：推理模型常过度思考，推出SBT框架。通过刹车信号、多任务微调等设计，让模型适时停步。实验显示其能减少token生成，且维持准确率，具稳定性和通用性。>阅读原文

智源开源 Video-XL-2 模型

智源研究院等发布 Video-XL-2 模型：架构上多组件协作，训练分四阶段，还设计优化策略。它在主流评测基准表现佳，能处理超长视频，可用于影视分析、监控预警等。>阅读原文

腾讯开源HunyuanVideo-Avatar

腾讯混元团队开源 HunyuanVideo-Avatar 多模态数字人生成模型。上传图片和音频，约 14 秒就能输出视频，还支持多角色同屏。全开源、易上手，解决了动态与一致性难题。>阅读原文

北理发布教育评估基准EduBench

北京理工大学高扬团队：推出全场景教育基准EduBench并全面开源，评估发现大模型在特殊教育场景适配性待提升，多源知识蒸馏让小模型性能媲美大模型，后续将优化评估流程。>阅读原文

PosterAgent：论文秒变学术海报

滑铁卢大学团队推出PosterAgent，能一键将论文转海报。相比GPT - 4o，它成本低、指标优。实验表明，在视觉质量、文本连贯性等方面表现出色，开源Qwen变体原始准确率更胜一筹。>阅读原文

腾讯Kuikly鸿蒙版正式开源

腾讯：Kuikly框架鸿蒙版正式开源，适配鸿蒙系统解决诸多性能和稳定性问题，优化调试效率，发布Compose DSL Beta版，未来持续适配鸿蒙，提升Kotlin Native性能。>阅读原文

算法论文

阿里清华：20%高熵token驱动LLM训练

阿里与清华：训练LLM推理时，20%高熵token是关键，用其强化学习效果超全量训练；仅调整高熵token能避低熵干扰，提升效率，大模型更能利用其探索能力。>阅读原文

Meta、Google：揭秘语言模型记忆

Meta与Google研究：语言模型“死记硬背”容量有限，约3.6比特/参数。数据超容量时从死记转向泛化，出现“双下降”。模型大、数据多，隐私攻击成功率低。>阅读原文

Meta CrossFlow革新跨模态生成

Meta和约翰霍普金斯大学：CrossFlow框架基于流匹配实现跨模态生成新范式，无需依赖噪声，在多任务表现优，降低训练成本、提高速度，还能反向用于图像描述，推动模型适配多任务。>阅读原文

UCLA谷歌：AI 3D记忆超基线16.5%

UCLA与谷歌团队：推出3DLLM - MEM模型和3DMEM - BENCH基准，让AI在3D环境有长时记忆能力，实验表现超基线16.5%，不过目前依赖模拟器高层动作预设。>阅读原文

SUGAR解决ReLU重大缺陷

德国吕贝克大学等机构研究者：提出 SUGAR 方法，不换模型、不堆参数解决 ReLU「死亡 ReLU 问题」。设计 B - SiLU、NeLU 函数，实验表明在不同架构和数据集上性能提升明显。>阅读原文

中科院探索 LLM 高效参数迁移

中科院谭宇乔团队：传统符号语言传知识低效，LLM 模仿也有局限。提出 Pre - Align PKT 新范式，实验发现跨规模 PKT 因神经不兼容性失败，期待未来有高效迁移法。>阅读原文

清华南洋理工：推ALLMs评估框架

清华南洋理工团队：提出AudioTrust评估框架，从公平性等6维度评估ALLMs。实验显示，闭源模型多方面优于开源，但都有不足，如存在偏见、鲁棒性差等，框架已发布助力研究。>阅读原文

华人团队新框架超越GPT - 4o

华人团队：提出General - Reasoner框架，让Qwen跨领域推理准确率提升近10%，在12项基准测试中表现出色，部分超越GPT - 4o，未来将继续优化模型。>阅读原文

    </p>

官网：www.AiReadingHub.com