AI日报：谷歌Gemini 3.0上线实测，GPT - 5被比下去; 马斯克邀卡帕西编程对决，合作与否待察; RAG已死？业界观点大碰撞

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」，获取更多AI资讯和技术文章。

2025-10-20 资讯日报

新闻资讯

谷歌Gemini 3.0上线实测，GPT - 5被比下去

新智元报道：谷歌Gemini 3.0疑似上线LMArena，马甲被扒。实测它能精确看表，GPT - 5却乱答；SVG测试有进步；还能作曲。但AI评测方式老套，期待新玩法。>阅读原文

马斯克邀卡帕西编程对决，合作与否待察

马斯克邀卡帕西与Grok 5编程对决，卡帕西以无胜算婉拒。网友看法多样，有人觉得是邀其回归xAI。卡帕西曾在特斯拉、OpenAI任职，未来是否再与马斯克合作待观望。>阅读原文

RAG已死？业界观点大碰撞

向量数据库Chroma创始人提出“RAG已死”。不同人看法不一，有人觉得RAG会进化成智能检索，有人称其正成为工程学科，也有人指出它有缺陷，会被Agent和长上下文取代，未来角色或转变。>阅读原文

Groq融资7.5亿，挑战英伟达之路漫漫

AI芯片初创公司Groq获7.5亿美元融资，估值69亿美元。它由前谷歌工程师创立，产品面向开发者和企业，能低成本维持AI性能，但在生态和大规模模型支持上与英伟达有差距，短期难撼其地位。>阅读原文

Python 3.14 去 GIL，Python 之父泼冷水

Python 3.14 发布，去 GIL 功能上线，开发者 Jeffrey Emanuel 称是“革命性”版本，Karpathy 点赞。但 Python 之父 Guido van Rossum 泼冷水，认为去 GIL 被高估，强调工程常识和代码质量。>阅读原文

GPT - 5数学突破成闹剧，友商嘲讽

OpenAI研究员称GPT - 5解决10个厄尔多斯数学难题，引发轰动。但被指出是营销过度，GPT - 5只是搜到已有答案。友商嘲讽，OpenAI删稿，不过GPT - 5此前有一定数学解题能力。>阅读原文

Augment代码助手涨价10倍引争议

AI代码助手Augment Code更新定价模式，按使用量计费，引发用户不满。CEO称原模式不可持续，举例有用户带来高额成本。行业内多家公司也调整定价，凸显AI编码助手成本和定价难题。>阅读原文

量子位：Agent产品趋向多体协同与行业深耕

量子位智库发布2025Q3 AI100榜单，Agent产品技术向系统协作发展，应用落地到行业核心业务。如科研、投资领域有相关应用，部分产品流量好，7款Agent产品入围，扣子空间等首次发布即上榜。>阅读原文

GPT-5解难题是抄答案，哈萨比斯：尴尬！

OpenAI吹GPT-5破解十道难题，实则查文献。哈萨比斯评尴尬，图灵奖得主嘲讽。开发者建议对AI科研成果说法谨慎，同行评审不可少，AI辅助科研是趋势。>阅读原文

OpenAI：RL+预训练才是AGI正道

OpenAI研究副总裁Jerry Tworek认为GPT-5类似o3.1，推理过程类比人类思考。RL+预训练是AGI正道，肯定GRPO算法。他分享自身经历，称OpenAI工作结构独特。>阅读原文

三季度：ASML回血，台积电成“AI印钞机”

荷兰ASML三季报数据佳，预计四季度更好，2026年在华销售额或降，还投资Mistral AI。台积电Q3营收、利润同比暴增超30%，但依赖北美市场，出口管制致大陆客户收入占比创新低。>阅读原文

2025乌镇峰会：AI引领中国数字秩序重塑

2025乌镇峰会聚焦AI，从数字经济论坛变身展示AI发展模式平台。议程凸显AI重要性，其不仅是技术盛会，更是中国重塑全球数字秩序战略体现，影响经济、产业和就业等多领域。>阅读原文

扎克伯格豪赌AI，Meta弃祖传系统追对手

Meta的「超级智能实验室」发起内部革命，加速AI开发。扎克伯格投巨资，以九位数年薪吸引人才。为提高效率，Meta让员工弃自研系统，用Vercel等平台，还设KPI推动员工用AI。>阅读原文

Karpathy：AGI还要等十年

Karpathy认为AGI还需10年，虽LLM有进展，但实现AGI仍有大量工作。马斯克点名他与Grok 5编程对决遭拒。他还指出强化学习非全部答案，主张合理利用AI工具。>阅读原文

薛定谔外孙创业，量子计算独角兽获10亿融资

薛定谔外孙Terry Rudolph参与创办的PsiQuantum，获10亿美元融资，要在2028年超越谷歌和IBM，造出百万比特级量子计算机。其量子比特基于光子，有生产优势，但纠错能力待解。>阅读原文

字节Cici霸榜海外，豆包国内领先

字节跳动的AI智能助手Cici在海外多国应用商店霸榜，融合字节技术，文本生成用OpenAI、谷歌模型。其姊妹产品豆包在国内赛道全维度领先，仅Web端不敌DeepSeek。>阅读原文

马斯克被曝用筛查服务造「超级婴儿」

《华盛顿邮报》称马斯克至少一名子女用了胚胎多基因筛查服务。此技术被包装吸引富豪，但顶尖医学组织警告不应临床用。因对基因互动了解少、算法数据有局限等，这更像一场豪赌。>阅读原文

LSTM之父：我学生才是残差学习奠基人

LSTM之父Jürgen Schmidhuber：学生Sepp Hochreiter 1991年就用循环残差连接解决梯度消失问题，为残差思想奠基，把残差学习成果全归何恺明团队有失偏颇。>阅读原文

产品应用

Codex 与 Claude Code：全用才香！

作者建议有条件就用最好的模型工具，Codex 和 Claude Code 各有特点可混着用。介绍文件同步、记忆文件更新等使用技巧，强调写好 Prompt、明确 AI 能力边界，像当老板一样用好 AI。>阅读原文

孙志敏揭秘Hexstrike AI安装与跟踪

孙志敏介绍Hexstrike AI，它是基于Agent协同的智能渗透测试系统。文章讲了其服务端和客户端安装配置，还提到搭建跟踪系统的方法，后续将深入分析专业AI代理原理并关注v7.0新功能。>阅读原文

Qwen3 - Coder+RAG实现C3仓库代码评审

本文介绍C3仓库基于Qwen3 - Coder、RAG等实现代码评审实践。在CI流水线触发AI评审，能发现逻辑风险、拦截缺陷。已执行上千次评审，可提升效率与质量，可复用，目前还在持续优化。>阅读原文

开源动态

哈佛MIT推ToolUniverse，开启AI科学家时代

哈佛MIT推出ToolUniverse框架，为AI连接600+科学工具。它解决了工具调用难题，实现科研流程自动化。以药物研发为例，AI能高效完成靶点识别、化合物筛选等步骤，推动科学发现新范式。>阅读原文

百度0.9B参数模型PaddleOCR-VL登顶文档解析评测

百度PaddleOCR-VL模型以0.9B参数在文档解析评测登顶。它采用两阶段架构，结合传统与端到端方法优点，配合大规模多样训练数据及自动化标注，实现高性能、低内存与快速度。>阅读原文

本周推荐5个超牛GitHub开源项目

开源君推荐本周 5 个超赞的 GitHub 开源项目。有让 Docker 跑桌面的 x11docker，AI 抠图换底的 HivisionIDPhotos，仓库可视化工具 GitDiagram，英语打字学习的 TypeWords，还有 AI 加持的记账应用 ezbookkeeping。>阅读原文

阿里通义DeepResearch-30B开源实战攻略

阿里通义DeepResearch开源项目表现优异，以小尺寸模型获极佳性能。文章给出构建本地化助理攻略，涉及模型部署、ReAct Agent实现等，还提及项目待优化点及未来方向。>阅读原文

上海AI Lab发布video2code基准，GPT - 5仅36.35分

上海人工智能实验室等推出IWR - Bench评测基准，聚焦动态视频转可交互网页代码。对28个模型测评，GPT - 5仅36.35分，显示功能实现是瓶颈，通用多模态模型表现更好。>阅读原文

唐文斌与Hugging Face推机器人评测平台

唐文斌和Thomas Wolf指出机器人研究痛点，联合推出RoboChallenge.ai评测平台。他们认为开源对机器人领域重要，平台可弥合仿真与现实鸿沟，未来具身智能研究尺度将演进。>阅读原文

微软推BitDistill，华人团队实现无损量化

微软推出BitDistill蒸馏框架，实现1.58bit量化近乎无损。它分三阶段优化，实验显示在多任务表现近全精度模型，降内存、提速度，且兼容不同模型架构和量化策略，作者全是华人。>阅读原文

美团VitaBench评测：现有智能体与需求差距大

美团LongCat团队发布VitaBench评测基准，以生活场景为载体。评测发现现有模型跨场景表现差、稳定性低，且在推理、工具使用和交互方面有不足。该基准已开源，为实用智能体研究提供方向。>阅读原文

英伟达GenCluster助开源模型IOI夺金

英伟达提出GenCluster框架，让开源模型gpt - oss - 120b在IOI 2025竞赛达金牌水准。它以算力换思路，执行四步流程，优势显著，为开源AI带来新突破，也引发行业新思考。>阅读原文

上交&上海AI Lab：MM - HELIX破解多模态推理难题

上海交大和上海AI Lab团队推出MM - HELIX，通过基准测试评估模型反思能力，用MM - HELIX - 100K数据集训练，以AHPO算法优化，让模型学会反思，部分成果已开源。>阅读原文

Meta开源DepthLM，解锁VLM 3D理解潜力

Meta开源DepthLM，证明视觉语言模型不改架构也能有媲美纯视觉模型的3D理解能力。通过创新策略完成像素级深度估计等，还能处理多任务，为多领域带来应用前景。>阅读原文

算法论文

港大团队：GPC框架免训练提升机器人策略性能

香港大学团队曹嘉航等提出GPC框架，免训练实现机器人“策略组合”。它能跨架构、模态融合策略，通过凸组合动态融合决策分数，权重搜索机制“量身定制”策略，仿真和真机实验均验证性能提升。>阅读原文

浙大GSM8K-V：揭示模型视觉推理短板

浙大团队推出GSM8K-V基准评估视觉语言模型数学推理能力。实验表明，模型文本推理接近饱和，但视觉推理短板显著，与人类理解方式差异大，为模型发展提供新方向。>阅读原文

SAM 3：分割模型进化，理解语义能力强

Meta的SAM 3进化为多模态模型，能理解语义进行概念分割。其架构创新，数据引擎高效。评估中表现出色，与MLLM结合成SAM 3 Agent推理能力强，但在专业领域和复杂场景存在不足。>阅读原文

RAKG框架：文档级知识图谱构建新突破

文章介绍RAKG框架用于文档级知识图谱构建，指出GraphRAG局限性，RAKG通过创新方法解决问题。用MINE数据集实验，RAKG准确性达95.81%，多项指标优于GraphRAG和KGGen。>阅读原文

    </p>

官网：www.AiReadingHub.com