AI日报:谷歌Gemini 3.0上线实测,GPT - 5被比下去; 马斯克邀卡帕西编程对决,合作与否待察; RAG已死?业界观点大碰撞

183 阅读4分钟

All in AI,看见未来。 每天精选最值得读的AI文章,帮你筛掉时代的噪音。 以简讯见广度,以深读见洞察。 技术、趋势、思考,一站式掌握AI世界。 欢迎关注公众号「AI Reading Hub」,获取更多AI资讯和技术文章。

2025-10-20 资讯日报

新闻资讯

谷歌Gemini 3.0上线实测,GPT - 5被比下去

新智元报道:谷歌Gemini 3.0疑似上线LMArena,马甲被扒。实测它能精确看表,GPT - 5却乱答;SVG测试有进步;还能作曲。但AI评测方式老套,期待新玩法。>阅读原文

马斯克邀卡帕西编程对决,合作与否待察

马斯克邀卡帕西与Grok 5编程对决,卡帕西以无胜算婉拒。网友看法多样,有人觉得是邀其回归xAI。卡帕西曾在特斯拉、OpenAI任职,未来是否再与马斯克合作待观望。>阅读原文

RAG已死?业界观点大碰撞

向量数据库Chroma创始人提出“RAG已死”。不同人看法不一,有人觉得RAG会进化成智能检索,有人称其正成为工程学科,也有人指出它有缺陷,会被Agent和长上下文取代,未来角色或转变。>阅读原文

Groq融资7.5亿,挑战英伟达之路漫漫

AI芯片初创公司Groq获7.5亿美元融资,估值69亿美元。它由前谷歌工程师创立,产品面向开发者和企业,能低成本维持AI性能,但在生态和大规模模型支持上与英伟达有差距,短期难撼其地位。>阅读原文

Python 3.14 去 GIL,Python 之父泼冷水

Python 3.14 发布,去 GIL 功能上线,开发者 Jeffrey Emanuel 称是“革命性”版本,Karpathy 点赞。但 Python 之父 Guido van Rossum 泼冷水,认为去 GIL 被高估,强调工程常识和代码质量。>阅读原文

GPT - 5数学突破成闹剧,友商嘲讽

OpenAI研究员称GPT - 5解决10个厄尔多斯数学难题,引发轰动。但被指出是营销过度,GPT - 5只是搜到已有答案。友商嘲讽,OpenAI删稿,不过GPT - 5此前有一定数学解题能力。>阅读原文

Augment代码助手涨价10倍引争议

AI代码助手Augment Code更新定价模式,按使用量计费,引发用户不满。CEO称原模式不可持续,举例有用户带来高额成本。行业内多家公司也调整定价,凸显AI编码助手成本和定价难题。>阅读原文

量子位:Agent产品趋向多体协同与行业深耕

量子位智库发布2025Q3 AI100榜单,Agent产品技术向系统协作发展,应用落地到行业核心业务。如科研、投资领域有相关应用,部分产品流量好,7款Agent产品入围,扣子空间等首次发布即上榜。>阅读原文

GPT-5解难题是抄答案,哈萨比斯:尴尬!

OpenAI吹GPT-5破解十道难题,实则查文献。哈萨比斯评尴尬,图灵奖得主嘲讽。开发者建议对AI科研成果说法谨慎,同行评审不可少,AI辅助科研是趋势。>阅读原文

OpenAI:RL+预训练才是AGI正道

OpenAI研究副总裁Jerry Tworek认为GPT-5类似o3.1,推理过程类比人类思考。RL+预训练是AGI正道,肯定GRPO算法。他分享自身经历,称OpenAI工作结构独特。>阅读原文

三季度:ASML回血,台积电成“AI印钞机”

荷兰ASML三季报数据佳,预计四季度更好,2026年在华销售额或降,还投资Mistral AI。台积电Q3营收、利润同比暴增超30%,但依赖北美市场,出口管制致大陆客户收入占比创新低。>阅读原文

2025乌镇峰会:AI引领中国数字秩序重塑

2025乌镇峰会聚焦AI,从数字经济论坛变身展示AI发展模式平台。议程凸显AI重要性,其不仅是技术盛会,更是中国重塑全球数字秩序战略体现,影响经济、产业和就业等多领域。>阅读原文

扎克伯格豪赌AI,Meta弃祖传系统追对手

Meta的「超级智能实验室」发起内部革命,加速AI开发。扎克伯格投巨资,以九位数年薪吸引人才。为提高效率,Meta让员工弃自研系统,用Vercel等平台,还设KPI推动员工用AI。>阅读原文

Karpathy:AGI还要等十年

Karpathy认为AGI还需10年,虽LLM有进展,但实现AGI仍有大量工作。马斯克点名他与Grok 5编程对决遭拒。他还指出强化学习非全部答案,主张合理利用AI工具。>阅读原文

薛定谔外孙创业,量子计算独角兽获10亿融资

薛定谔外孙Terry Rudolph参与创办的PsiQuantum,获10亿美元融资,要在2028年超越谷歌和IBM,造出百万比特级量子计算机。其量子比特基于光子,有生产优势,但纠错能力待解。>阅读原文

字节Cici霸榜海外,豆包国内领先

字节跳动的AI智能助手Cici在海外多国应用商店霸榜,融合字节技术,文本生成用OpenAI、谷歌模型。其姊妹产品豆包在国内赛道全维度领先,仅Web端不敌DeepSeek。>阅读原文

马斯克被曝用筛查服务造「超级婴儿」

《华盛顿邮报》称马斯克至少一名子女用了胚胎多基因筛查服务。此技术被包装吸引富豪,但顶尖医学组织警告不应临床用。因对基因互动了解少、算法数据有局限等,这更像一场豪赌。>阅读原文

LSTM之父:我学生才是残差学习奠基人

LSTM之父Jürgen Schmidhuber:学生Sepp Hochreiter 1991年就用循环残差连接解决梯度消失问题,为残差思想奠基,把残差学习成果全归何恺明团队有失偏颇。>阅读原文

产品应用

Codex 与 Claude Code:全用才香!

作者建议有条件就用最好的模型工具,Codex 和 Claude Code 各有特点可混着用。介绍文件同步、记忆文件更新等使用技巧,强调写好 Prompt、明确 AI 能力边界,像当老板一样用好 AI。>阅读原文

孙志敏揭秘Hexstrike AI安装与跟踪

孙志敏介绍Hexstrike AI,它是基于Agent协同的智能渗透测试系统。文章讲了其服务端和客户端安装配置,还提到搭建跟踪系统的方法,后续将深入分析专业AI代理原理并关注v7.0新功能。>阅读原文

Qwen3 - Coder+RAG实现C3仓库代码评审

本文介绍C3仓库基于Qwen3 - Coder、RAG等实现代码评审实践。在CI流水线触发AI评审,能发现逻辑风险、拦截缺陷。已执行上千次评审,可提升效率与质量,可复用,目前还在持续优化。>阅读原文

推荐文章

Nir Eyal:破解AI学习专注力秘密

花叔借Nir Eyal观点指出,AI时代学不进去是因没处理好学习不适。建议用Time Boxing规划学习、“10分钟法则”抗分心,预先规划应对不适方式,强制输出实践,训练专注力。>阅读原文

Manus:3策略破解AI Agent上下文难题

Manus联合创始人拆解上下文工程逻辑。其用‘减少、卸载、隔离’策略管理上下文,选模型重缓存、多搭配。还给出6条实践启示,强调上下文管理效率决定Agent性能上限。>阅读原文

作者:别让AI总结替你体验生活

作者认为AI总结如同“三分钟看电影”,会清除内容细节与体验感。真正的学习创造源于“无聊”时刻,呼吁大家在快时代享受“慢”过程,别让AI替自己生活。>阅读原文

开源动态

哈佛MIT推ToolUniverse,开启AI科学家时代

哈佛MIT推出ToolUniverse框架,为AI连接600+科学工具。它解决了工具调用难题,实现科研流程自动化。以药物研发为例,AI能高效完成靶点识别、化合物筛选等步骤,推动科学发现新范式。>阅读原文

百度0.9B参数模型PaddleOCR-VL登顶文档解析评测

百度PaddleOCR-VL模型以0.9B参数在文档解析评测登顶。它采用两阶段架构,结合传统与端到端方法优点,配合大规模多样训练数据及自动化标注,实现高性能、低内存与快速度。>阅读原文

本周推荐5个超牛GitHub开源项目

开源君推荐本周 5 个超赞的 GitHub 开源项目。有让 Docker 跑桌面的 x11docker,AI 抠图换底的 HivisionIDPhotos,仓库可视化工具 GitDiagram,英语打字学习的 TypeWords,还有 AI 加持的记账应用 ezbookkeeping。>阅读原文

阿里通义DeepResearch-30B开源实战攻略

阿里通义DeepResearch开源项目表现优异,以小尺寸模型获极佳性能。文章给出构建本地化助理攻略,涉及模型部署、ReAct Agent实现等,还提及项目待优化点及未来方向。>阅读原文

上海AI Lab发布video2code基准,GPT - 5仅36.35分

上海人工智能实验室等推出IWR - Bench评测基准,聚焦动态视频转可交互网页代码。对28个模型测评,GPT - 5仅36.35分,显示功能实现是瓶颈,通用多模态模型表现更好。>阅读原文

唐文斌与Hugging Face推机器人评测平台

唐文斌和Thomas Wolf指出机器人研究痛点,联合推出RoboChallenge.ai评测平台。他们认为开源对机器人领域重要,平台可弥合仿真与现实鸿沟,未来具身智能研究尺度将演进。>阅读原文

微软推BitDistill,华人团队实现无损量化

微软推出BitDistill蒸馏框架,实现1.58bit量化近乎无损。它分三阶段优化,实验显示在多任务表现近全精度模型,降内存、提速度,且兼容不同模型架构和量化策略,作者全是华人。>阅读原文

美团VitaBench评测:现有智能体与需求差距大

美团LongCat团队发布VitaBench评测基准,以生活场景为载体。评测发现现有模型跨场景表现差、稳定性低,且在推理、工具使用和交互方面有不足。该基准已开源,为实用智能体研究提供方向。>阅读原文

英伟达GenCluster助开源模型IOI夺金

英伟达提出GenCluster框架,让开源模型gpt - oss - 120b在IOI 2025竞赛达金牌水准。它以算力换思路,执行四步流程,优势显著,为开源AI带来新突破,也引发行业新思考。>阅读原文

上交&上海AI Lab:MM - HELIX破解多模态推理难题

上海交大和上海AI Lab团队推出MM - HELIX,通过基准测试评估模型反思能力,用MM - HELIX - 100K数据集训练,以AHPO算法优化,让模型学会反思,部分成果已开源。>阅读原文

Meta开源DepthLM,解锁VLM 3D理解潜力

Meta开源DepthLM,证明视觉语言模型不改架构也能有媲美纯视觉模型的3D理解能力。通过创新策略完成像素级深度估计等,还能处理多任务,为多领域带来应用前景。>阅读原文

算法论文

港大团队:GPC框架免训练提升机器人策略性能

香港大学团队曹嘉航等提出GPC框架,免训练实现机器人“策略组合”。它能跨架构、模态融合策略,通过凸组合动态融合决策分数,权重搜索机制“量身定制”策略,仿真和真机实验均验证性能提升。>阅读原文

浙大GSM8K-V:揭示模型视觉推理短板

浙大团队推出GSM8K-V基准评估视觉语言模型数学推理能力。实验表明,模型文本推理接近饱和,但视觉推理短板显著,与人类理解方式差异大,为模型发展提供新方向。>阅读原文

SAM 3:分割模型进化,理解语义能力强

Meta的SAM 3进化为多模态模型,能理解语义进行概念分割。其架构创新,数据引擎高效。评估中表现出色,与MLLM结合成SAM 3 Agent推理能力强,但在专业领域和复杂场景存在不足。>阅读原文

RAKG框架:文档级知识图谱构建新突破

文章介绍RAKG框架用于文档级知识图谱构建,指出GraphRAG局限性,RAKG通过创新方法解决问题。用MINE数据集实验,RAKG准确性达95.81%,多项指标优于GraphRAG和KGGen。>阅读原文

    </p>
    

官网:www.AiReadingHub.com