AI Daily | AI日报:Grok 3 自称 Claude 引争议; Z世代:具身智能弄潮儿; AI编码强,通用能力遇瓶颈

122 阅读4分钟

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。

2025-06-04 资讯日报

新闻资讯

Grok 3 自称 Claude 引争议

网友 GpsTracker:Grok 3 在“思考模式”下自称 Claude,还坚称身份。研究员指或因路由漏洞、数据混入等。Reddit 用户吐槽 Grok 预训练团队不专业。>阅读原文

Z世代:具身智能弄潮儿

三位具身智能领域Z世代各有见解。谭恒楷认为要靠非共识突破,直指action数据稀缺本质;吴铭东强调真机强化学习,警惕人类过度依赖AI;王乾旭追求科研快乐,探索统一数据表示方式。>阅读原文

AI编码强,通用能力遇瓶颈

作者复盘2025上半年AI发展:虽编码、多模态能力提升,但模型出现第二轮瓶颈,编码强时通用能力‘拉胯’,或因RL用编程数据,红杉新基准或促模型均衡。>阅读原文

DeepSeek R1医疗评测夺冠

斯坦福评测显示,在含35个基准测试的MedHELM评估中,DeepSeek R1以66%胜率领先,o3 - mini等紧随。不同模型在各任务表现有差异,Claude 3.5和3.7 Sonnet性价比不错。>阅读原文

讯飞与昇腾携手炼就大模型

科大讯飞AI工程院院长潘青华称,讯飞与昇腾合作历经四阶段,实现性能突破。双方软硬件协同,加速大模型落地。未来,‘星火加昇腾’将树立新标杆。>阅读原文

软银英特尔联手造AI芯片

软银与英特尔:成立Saimemory开发AI存储芯片,投资7000万美元。软银想获适配数据中心芯片,英特尔欲重返内存市场,若方案普及或打破HBM市场格局。>阅读原文

AI音乐欺诈成行业毒瘤

2024年音乐市场繁荣,AI却成欺诈利器。Michael Smith用AI创作假歌获利近亿,面临多项指控。如今诈骗者批量投假歌,平台虽反击但成效差,版权保护难度大。>阅读原文

AI造谣频发,谷歌出手应对

池建强:移动互联网加速谣言传播,AI生成内容更难辨真假,如易建联被造谣、AI生成逼真图片等,谷歌有检测水印技术,呼吁大公司应对AI时代新问题。>阅读原文

GPT - 5或7月上线,奥特曼谈AI前景

多方爆料OpenAI或7月推GPT - 5,奥特曼确认o3 pro将至。有人期待其飞跃,也有内部预警提升有限。奥特曼称AI会带来巨变,应服务个人意志,助力解决多领域问题。>阅读原文

杭州峰会选拔AI未来新星

2025全球人工智能技术大会6月6 - 8日在杭州召开,戴琼海等院士带来演讲。6月7日首届“清源学者”峰会启幕,15位青年学者分享成果,学会将助力其科研与转化。>阅读原文

Anthropic CEO:AI 或吞噬初级白领岗位

Anthropic CEO Dario Amodei:未来五年半数初级白领岗位或被 AI 吞噬,失业率或达 20%。风投机构报告显示初级岗位招聘量锐减,业内建议求职者把 AI 当助手,快速成长。>阅读原文

Andrej Karpathy分享ChatGPT选模指南

Andrej Karpathy:o3处理重要任务最佳,分享模型选择策略。社区用户热烈讨论,反馈o4 - mini表现,高级用户分享复杂玩法,指出各模型适用场景及优缺点。>阅读原文

优步完成 Kubernetes 大规模迁移

优步:完成从 Apache Mesos 到 Kubernetes 的大规模迁移。虽面临技术、文化挑战,但带来运营效率、资源利用率提升等好处,为大公司转型提供案例。>阅读原文

马斯克xAI拟售3亿美元股权

马斯克旗下xAI:正以1130亿美元估值出售3亿美元股权,若融资成功将跻身全球前列。它与X合并,产品Grok AI功能强大,能提供实时信息、多模态交互等服务。>阅读原文

吴恩达:削减科研经费损国力

吴恩达:美国拟削减科研经费将影响竞争力,资助科研对美国益处大,知识在本地传播快。中国科技生态开放发展迅速,呼吁美国坚守资助科研模式。>阅读原文

海光曙光合并,国产算力格局或变天

正解局:美国切断部分对华半导体技术出口,国内海光信息与中科曙光合并。当下中美算力竞争聚焦‘生态’,美国以市场渗透锁定全球,中国‘高筑墙,广积粮’打造全链条。>阅读原文

扩散模型改写AI模型范式

Google DeepMind用扩散技术探索语言模型新方向。蚂蚁集团和人大推出的LLaDA表现出色,成研究常用基础模型。国内团队在扩散式多模态LLM研究跻身前列,期待早日应用。>阅读原文

谷歌AI应用实测褒贬不一

谷歌推出 Google AI Edge Gallery 应用,能离线运行 AI 模型。网友评价两极分化,有人手机崩溃,也有人运行良好。还有人认为它落后 CoreML,其目标受众或为需跨平台部署模型的开发者。>阅读原文

OpenAI推ChatGPT免费记忆功能

OpenAI的Sam Altamn:从今日起为免费版ChatGPT提供轻量级记忆功能,未来会改进。此功能能个性化回答,对多领域帮助大,还介绍了使用方法和常见问答。>阅读原文

产品应用

谷歌AI Studio视频对话支持中文

谷歌AI Studio实时视频对话支持中文,有Gemini 2.5 Flash加持。相比ChatGPT Plus限制少,使用方便。可用于多场景,但存在说话慢、废话多等问题。>阅读原文

Character.ai上线视频生成功能

Character.ai:上线视频生成功能AvatarFX,让图片人物说话唱歌,多轮对话也稳定。谷歌收购它遭反垄断调查,此前创始人等核心人员已回归谷歌。>阅读原文

华为3招让MoE训练提速70%

华为:为突破MoE训练瓶颈,构建Adaptive Pipe & EDPB优化方案,打造DeployMind仿真平台,解决通信等待和负载不均问题,让Pangu Ultra MoE 718B模型训练吞吐提升72.6%。>阅读原文

FLUX Kontext 搞定图片难题

歸藏的 AI 工具箱:黑森林工作室发布的 FLUX Kontext 模型很强大,能精细修改图片、去水印、生成商品图等,还可美颜美体,且价格便宜,未来还将开源降低成本。>阅读原文

阿里WebDancer助力信息检索

阿里巴巴通义实验室:推出WebDancer,一种原生信息检索的Agentic Model。它经多阶段训练,在GAIA和WebWalkerQA测试中表现佳,为解决复杂网络信息检索问题带来新可能。>阅读原文

YouWare:让AI编程人人可及

YouWare创始人明超平:AI时代需新创作载体,YouWare应运而生。它让非程序员也能创作网页并分享,将AI Coding从专业变为通用,平台项目已达数十万。>阅读原文

推荐文章

MCP 与 Agent+Function Call 大比拼

文章对比 MCP 和 Agent + Function Call 两种大模型工具接入方案。MCP 标准化强、安全可控但开发难、响应慢;Agent + Function Call 开发灵活、推理强但安全弱、跨模型兼容性有限。企业级重安全选 MCP,轻量开发、智能推理选后者。>阅读原文

Eric Hayes拆解ChatGPT记忆机制

Eric Hayes:ChatGPT记忆机制由保存记忆和聊天历史构成,聊天历史含当前会话、对话历史、用户洞察。用户洞察或对其“智能感”提升功劳超80%,能自动捕捉用户偏好。>阅读原文

AI难短期取代编程从业者

宝玉认为,AI编程效率没想象高,全面面向AI的软件架构不会很快出现,程序员和架构师短期内不会被替代。即便未来被替代,学习编程和系统设计知识可培养解决问题的能力。>阅读原文

白杨SEO:AI时代SEO不死

白杨SEO:我入行SEO 14年,职场10年换6家公司,现自由职业。百度SEO有四阶段,别放弃,它能进生成式引擎,有2B流量。AI时代SEO思维不死,会有变体。>阅读原文

Ptacek:不用AI编程的开发者或“疯了”

Thomas Ptacek:不少聪明人认为AI是一时热潮,但论点站不住脚。大模型能成为软件开发第二大技术突破,虽有不足,但可解决琐碎问题,程序员应认真读代码并善用。>阅读原文

OpenAI营销负责人:PMF前营销无用

OpenAI首位营销负责人Krithika:产品没找到PMF前营销无价值;营销要全公司协同;ChatGPT营销核心是让用户懂应用;还给出营销四步法,强调理解客户与产品的重要性。>阅读原文

开源动态

李飞飞公司开源3D渲染核心技术

李飞飞创立的World Labs:开源Forge渲染器,能在各设备流畅渲染AI生成的3D世界,解决3DGS渲染限制,还可多视角渲染,公司目标是推三维世界多模态AI产品。>阅读原文

II - Agent 开源平替闭源 Agent

CourseAI:2025 是 Agent 之年。Manus、GenSpark AI 是闭源代理佼佼者,而开源的 II - Agent 功能与它们相当,有强大架构和多种能力,在 GAIA 基准测试表现不错。>阅读原文

Onlook:前端开发革命性工具

Onlook这款开源工具爆火,号称‘设计师的Cursor’。它能让用户拖拽构建前端界面,AI实时生成代码,实现设计与代码双向同步,解决设计与开发割裂问题,适合多类人群。>阅读原文

BioReason:基因推理AI新突破

多伦多大学团队发布BioReason,全球首个基因推理AI。它融合DNA与大语言模型,准确率飙升至97%,能解释致病机制。有望在Hugging Face上线,用于个性化癌症治疗等。>阅读原文

阿里VRAG - RL框架性能飙升30%

阿里通义实验室:推出VRAG - RL框架,解决传统RAG视觉处理难题。通过创新机制提升视觉语言模型性能,在多数据集表现佳,后续将向更拟人化和低幻觉方向发展。>阅读原文

微软开源AI量化神器Qlib

微软:开源AI量化神器Qlib,支持多种机器学习范式,解决量化投资难题。它有完整流程和多样工作流,还提供应对挑战方案,数据处理性能优越。>阅读原文

新框架让推理模型告别过度思考

浙大等团队:推理模型常过度思考,推出SBT框架。通过刹车信号、多任务微调等设计,让模型适时停步。实验显示其能减少token生成,且维持准确率,具稳定性和通用性。>阅读原文

智源开源 Video-XL-2 模型

智源研究院等发布 Video-XL-2 模型:架构上多组件协作,训练分四阶段,还设计优化策略。它在主流评测基准表现佳,能处理超长视频,可用于影视分析、监控预警等。>阅读原文

腾讯开源HunyuanVideo-Avatar

腾讯混元团队开源 HunyuanVideo-Avatar 多模态数字人生成模型。上传图片和音频,约 14 秒就能输出视频,还支持多角色同屏。全开源、易上手,解决了动态与一致性难题。>阅读原文

北理发布教育评估基准EduBench

北京理工大学高扬团队:推出全场景教育基准EduBench并全面开源,评估发现大模型在特殊教育场景适配性待提升,多源知识蒸馏让小模型性能媲美大模型,后续将优化评估流程。>阅读原文

PosterAgent:论文秒变学术海报

滑铁卢大学团队推出PosterAgent,能一键将论文转海报。相比GPT - 4o,它成本低、指标优。实验表明,在视觉质量、文本连贯性等方面表现出色,开源Qwen变体原始准确率更胜一筹。>阅读原文

腾讯Kuikly鸿蒙版正式开源

腾讯:Kuikly框架鸿蒙版正式开源,适配鸿蒙系统解决诸多性能和稳定性问题,优化调试效率,发布Compose DSL Beta版,未来持续适配鸿蒙,提升Kotlin Native性能。>阅读原文

算法论文

阿里清华:20%高熵token驱动LLM训练

阿里与清华:训练LLM推理时,20%高熵token是关键,用其强化学习效果超全量训练;仅调整高熵token能避低熵干扰,提升效率,大模型更能利用其探索能力。>阅读原文

Meta、Google:揭秘语言模型记忆

Meta与Google研究:语言模型“死记硬背”容量有限,约3.6比特/参数。数据超容量时从死记转向泛化,出现“双下降”。模型大、数据多,隐私攻击成功率低。>阅读原文

Meta CrossFlow革新跨模态生成

Meta和约翰霍普金斯大学:CrossFlow框架基于流匹配实现跨模态生成新范式,无需依赖噪声,在多任务表现优,降低训练成本、提高速度,还能反向用于图像描述,推动模型适配多任务。>阅读原文

UCLA谷歌:AI 3D记忆超基线16.5%

UCLA与谷歌团队:推出3DLLM - MEM模型和3DMEM - BENCH基准,让AI在3D环境有长时记忆能力,实验表现超基线16.5%,不过目前依赖模拟器高层动作预设。>阅读原文

SUGAR解决ReLU重大缺陷

德国吕贝克大学等机构研究者:提出 SUGAR 方法,不换模型、不堆参数解决 ReLU「死亡 ReLU 问题」。设计 B - SiLU、NeLU 函数,实验表明在不同架构和数据集上性能提升明显。>阅读原文

中科院探索 LLM 高效参数迁移

中科院谭宇乔团队:传统符号语言传知识低效,LLM 模仿也有局限。提出 Pre - Align PKT 新范式,实验发现跨规模 PKT 因神经不兼容性失败,期待未来有高效迁移法。>阅读原文

清华南洋理工:推ALLMs评估框架

清华南洋理工团队:提出AudioTrust评估框架,从公平性等6维度评估ALLMs。实验显示,闭源模型多方面优于开源,但都有不足,如存在偏见、鲁棒性差等,框架已发布助力研究。>阅读原文

华人团队新框架超越GPT - 4o

华人团队:提出General - Reasoner框架,让Qwen跨领域推理准确率提升近10%,在12项基准测试中表现出色,部分超越GPT - 4o,未来将继续优化模型。>阅读原文

    </p>
    

官网:www.AiReadingHub.com