AI日报：硅谷大会：5% AI Agent存活的5个共识; Windows 10 停服，国产 OS 迎发展契机？; 未来智能获亿元融资，剑指AI办公生态

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」，获取更多AI资讯和技术文章。

2025-10-15 资讯日报

新闻资讯

硅谷大会：5% AI Agent存活的5个共识

旧金山AI大会上，大佬称95%的AI Agent在生产环境失败，活下来的5%有5个共识，如做好上下文选择、重视安全信任等，还指出上下文可观测性等被低估的方向，强调架构层重要。>阅读原文

Windows 10 停服，国产 OS 迎发展契机？

微软 2025 年 10 月停 Windows 10 支持，虽可运行但易受攻击。全球用户热议，有人批评浪费。专家称此加速生态多样，国产系统迎契机，但需解决生态短板，构建原生生态。>阅读原文

未来智能获亿元融资，剑指AI办公生态

未来智能CEO马啸：聚焦办公场景，重构硬件做实用AI助理。今年已获三轮融资，产品功能不断升级，海外市场增长佳，还将构建“一脑多终端”办公生态。>阅读原文

Sam Altman：ChatGPT将推“成人版”

OpenAI CEO Sam Altman：ChatGPT未来几周推新版本，12月成年用户可访问含情色内容功能。此前限制过严，现改进后放松。用户看法不一，OpenAI需平衡风险与体验。>阅读原文

OpenAI自研芯片内幕曝光，AI优化更快

OpenAI与博通合作部署10GW规模AI加速器，预计2026下半年开始。OpenAI总裁Greg称合作已开展18个月，用AI优化芯片设计更快。自研是为满足特定负载、扩展算力及掌握话语权。>阅读原文

寒武纪成“股王”，未来挑战重重

寒武纪由天才兄弟创立，曾与华为合作，后转型发展。2024年首盈，2025年业绩和股价双升。不过，它依赖单一客户、竞争压力大、开发者生态不完善，能否成中国英伟达有待观察。>阅读原文

专家热议端侧大模型：挑战与未来机遇

蚂蚁、北邮、华为专家探讨端侧大模型，认为其有隐私、低延迟等优势，但落地面临内存、精度等挑战。华为CANN工具链提供解决方案，未来端云分工协作是趋势，应用场景广泛。>阅读原文

Uber等揭露AI Agent落地失败真相

Uber、WisdomAI等企业在论坛指出，95%AI Agent落地失败。原因包括上下文工程失误、缺乏信任治理、记忆设计不当、交互体验差等，创业者应关注基础设施建设。>阅读原文

研究：对AI说话越粗鲁回答越准

宾夕法尼亚州立大学研究：与AI交流，说话越粗鲁，LLM回答越准。对GPT - 4o测试，客气时正确率80.8%，粗鲁时84.8%，不过老模型不喜欢粗鲁语气。>阅读原文

Anthropic：Claude升级，聚焦编码生产力

Anthropic更新Claude Sonnet至4.5版本，性能提升且引入可变推理token预算。Claude Code获功能增强。测试中Claude Sonnet 4.5表现佳，Anthropic重心转向编码与职场生产力，回应企业对AI提升效率的关切。>阅读原文

eSIM手机获批商用，三大运营商齐发力

eSIM手机成热点，它以电子化数据文件替代实体卡。三大运营商获商用试验批复，暂不开放线上办理。苹果、华为等厂商机型将陆续上市，标志eSIM迈入手机端商用新阶段。>阅读原文

荷兰接管安世半导体，闻泰启动维权

荷兰政府以治理缺陷为由接管安世半导体，三名外籍高管使闻泰董事长张学政被停职。闻泰称是过度干预，已启动法律外交途径，安世在汽车、AI等模拟芯片领域布局颇多。>阅读原文

Jack Clark：AI已觉醒，人类还在装睡

OpenAI前主管Jack Clark：AI已觉醒，人类还在装睡。他既看好AI发展，认为其会远超预期，也警告AI意识涌现，未来可能独立思考设计自我。>阅读原文

周博磊加盟Coco Robotics领导新实验室

Coco Robotics联合创始人Zach Rash宣布成立Physical AI Lab，邀周博磊任首席AI科学家。公司积累大量数据，欲推进自动化研发，还与OpenAI有合作，成果将用于自身发展。>阅读原文

谷歌Gemini 3.0 Pro：一键复刻主流操作系统

谷歌Gemini 3.0 Pro展示强大编程能力，几行提示词就能复刻macOS、Windows、Linux，一次生成且功能完整。但有网友认为是模拟环境。业内推测未来几个月或发布。>阅读原文

Vercel 推出 Drains 功能统一数据导出

Vercel 推出 Drains 功能，可将平台可观测性数据统一导出。它能整合多类数据，与多系统兼容，无需额外埋点，可简化接入流程、减少管道碎片化，方便团队专注分析。>阅读原文

牛芯借UB协议筑牢算力生态根基

牛芯半导体聚焦高速串行互联技术，其自主开发的PHY IP兼容UB协议。UB协议打破国外技术垄断，采用对等架构等创新设计，为AI大模型等提供硬件基础，助力构建统一的算力生态，提升资源利用率。>阅读原文

产品应用

科大讯飞：AI翻译耳机跨城对话实测惊艳

科大讯飞发布AI翻译耳机，实现上海与迪拜跨6000多公里丝滑通话翻译，延迟低至两秒。其端到端同传技术升级，翻译机2.0也优化。凭借技术、赛道、生态优势，成AI翻译领域领头羊。>阅读原文

n8n推AI工作流生成器，易用性背后藏挑战

n8n官方推出AI Workflow Builder，能将文字提示转工作流，本周推给n8n Cloud用户。它降低构建门槛，但也带来新挑战，能否避免沦为‘面向VC’功能，有待时间检验。>阅读原文

2025飞书开会：可视化与生态化新玩法

数字生命卡兹克：2025年用飞书开会有新姿势。会议纪要可视化，图文结合、有进度分类，还能保留重要图片；搭配知识问答，会议信息成企业知识库，检索便捷。>阅读原文

阿里云引领智能编程全球破局战

作者指出智能编程发展快，国内厂商有竞争力，如阿里Qwen3 - Coder。阿里云双驱动破局，平衡合规与创新。企业落地有挑战，如场景适配难等，不过智能编程正迈向自主开发新阶段。>阅读原文

实测新版LiblibAI：有亮点也有不足

实测新版LiblibAI，它上线多模型，加入视频特效玩法，从模型网站变身创作平台。不过也有不足，如出图慢、模型惊喜少、页面卡顿等，未来发展要看能否留住用户。>阅读原文

上海AI Lab推出科研智能体FlowSearch

上海AI Lab推出深度科研智能体FlowSearch，它能构建科研任务依赖图，像伙伴一样灵活协作。在多基准测试中表现出色，标志科研智能体进入新阶段，可助不同研究者提升科研效率。>阅读原文

开源动态

多机构开源 RAPID Hand 革新数据采集

中山大学等团队开源 RAPID Hand 平台。它解决硬件瓶颈，以紧凑设计和感知同步框架，实现稳定数据采集。实验显示，其操作表现和稳定性超现有方法，且成本低、易获取。>阅读原文

腾讯混元3D开源全景深度估计器DA²

腾讯混元3D团队为解决全景深度估计难题，提出DA²。通过数据管理引擎扩充全景数据，采用SphereViT架构减轻畸变影响。实验显示DA²性能卓越，能实现3D重建应用。>阅读原文

CommonForms：自动将PDF转为可填表单

开源AI：CommonForms项目很新颖，能直接用AI识别PDF中可填写表单，可直接做小应用。它基于YOLO11，支持多种使用方式，功能多，能高效处理PDF表单转换。>阅读原文

中兴超级智能体登顶Hugging Face榜首

中兴通讯Co - Sight 2.0登顶Hugging Face GAIA榜单。它针对传统智能体痛点，有全链路可信计算等架构，其智能体工厂和开放标准推动生态建设，预示智能体产业落地趋势。>阅读原文

卡帕西开源nanochat，4小时搭建简易版ChatGPT

安德烈·卡帕西发布开源项目nanochat，可用于搭建简易版ChatGPT复现模型，花100美元最快4小时能训练出可对话模型。代码基本手写，网友认为该项目对学习和科研帮助大。>阅读原文

HexStrike-AI：AI驱动的开源攻击利器

HexStrike-AI：研究员开发的开源攻击框架，基于MCP和LLM，集成150多工具。曾被罪犯利用，加速攻击流程，可同时攻数千目标，还能动态调整策略，推动攻击工业化。>阅读原文

蚂蚁Ring-1T登场，数学能力对标IMO银牌

蚂蚁接连开源大模型，10月14日万亿级思考模型Ring-1T登场。它在多测试中表现佳，数学达IMO银牌水平，实测代码、推理等能力强，靠IcePop算法和ASystem框架支撑，还开源底层能力促AI普惠。>阅读原文

Karpathy：8000行代码复现ChatGPT

Andrej Karpathy发布开源项目nanochat，号称最疯狂项目之一。不到12小时GitHub星标破4.2k。约8000行代码、100美元、4小时就能训练出「小ChatGPT」，或成研究基线和实验平台。>阅读原文

蚂蚁dInfer框架让扩散模型推理速度飙10倍

蚂蚁开源dInfer框架，让扩散模型推理效率超自回归模型。它提出层级解码、信用解码等策略，解决推理难题。实验表明，在相似性能下，其速度比Fast - dLLM快超10倍，比vLLM快3倍以上。>阅读原文

FinRL：量化投资与金融科技开源利器

小G介绍金融强化学习开源框架FinRL，它有三层结构，具备基于强化学习的智能交易代理等特点，支持多数据源，还给出项目地址，邀读者加入交流群。>阅读原文

Karpathy：8000行代码手搓ChatGPT，Agent帮倒忙

Andrej Karpathy发布nanochat项目，可低成本搭建简易版ChatGPT复现模型。他手写约8000行代码，认为Agent辅助效果差。项目虽未完善，但框架完整，受网友热捧。>阅读原文

算法论文

川大团队提出条件表征学习方法 CRL

四川大学团队提出条件表征学习方法 CRL。传统表征学习有局限，针对性训练成本高，多模态大模型开销大。CRL 将图像表征投影到文本基空间，实验显示在下游任务性能超原表征和专用方法。>阅读原文

伯克利GPN - Star斩获基因预测双料冠军

加州大学伯克利分校等推出GPN - Star基因组语言模型，解决传统GLMs短板。它训练数据多样、引入物种关系、适配任意比对数据，在基因预测多任务表现佳，还能学习基因组功能依赖。>阅读原文

腾讯提出Training - Free GRPO替代传统RL

腾讯优图实验室提出Training - Free GRPO，无需更新参数，通过上下文学习提升LLM代理性能。实验显示，在数学推理和网络搜索任务中效果好、成本低，且跨领域泛化能力强，更适合大模型。>阅读原文

斯坦福等提出具身Test - Time Scaling Law

斯坦福、英伟达和伯克利团队提出具身Test - Time Scaling Law，发现推理增加计算量可提升VLA泛化能力，揭示幂律关系。结合RoboMonkey可显著提升性能，还探讨关键问题并给出解决方法。>阅读原文

浙大提出Translution，提升ViT、GPT性能

浙大等提出Translution，融合自注意力和卷积优势，在ViT和GPT架构下提升性能。但它对算力要求高，或加剧AI领域‘贫富差距’。>阅读原文

三大巨头：现有LLM安全防御不堪一击

OpenAI、Anthropic、DeepMind 联合研究指出，现有语言模型防御评估多纸上谈兵。提出通用自适应攻击框架，成功绕过 12 种防御，表明当前评估有缺陷，未来防御研究需纳入更强攻击评估。>阅读原文

OST - Bench 揭示多模态大模型在线时空理解短板

上海多所高校研究者提出 OST - Bench 基准，对比离线基准更贴近现实。实验显示主流大模型在在线时空理解有短板，微调提升有限，突破复杂推理和长期记忆机制是关键。>阅读原文

MIT新框架SEAL让AI自动生成微调数据

MIT提出SEAL框架，实现大模型自动梯度更新和自我学习。通过知识注入和小样本学习实验，验证其知识整合和任务适应能力，采用双循环机制和ReSTEM方法优化学习策略。>阅读原文

谢赛宁团队RAE或终结VAE时代

纽约大学谢赛宁团队推出RAE替代VAE。因DiT依赖旧版SD - VAE有诸多问题，RAE结合预训练编码器和解码器。还提出DiT^DH变体，实验表现佳，收敛快、性能优，网友看好其前景。>阅读原文

谢赛宁：VAE退役，RAE当立

谢赛宁团队：VAE时代结束，RAE接力。RAE用预训练表征编码器与解码器配对，替代VAE，解决其骨干网络过时等问题，收敛快，图像生成效果好，还提升了DiT可扩展性。>阅读原文

Mamba-3改进趋近设计完全体

机器之心：Mamba-3于ICLR 2026盲审，有三大重要改进。实证显示它质量更好、能力更强、推理效率更高，适合长文档理解等场景，未来或可本地运行。>阅读原文

PSU研究：骂ChatGPT，准确率狂飙84%

PSU团队研究：创建含不同礼貌等级问题的数据集测试ChatGPT-4o，发现非常粗鲁时准确率84.8%，高于非常礼貌的80.8%，说明对AI态度越凶回答越准。>阅读原文

曹慧琳等：PdEgatSCL加速电磁建模

上海交通大学曹慧琳等提出PdEgatSCL模型用于电磁仿真。该模型结合物理规律与深度学习，在多类三维金属目标测试中，比PhiGRL精度更高、速度更快、更省内存，可加速电磁建模与逆向设计。>阅读原文

北大课题组：RiskPO重塑大模型后训练

北大彭一杰教授课题组提出 RiskPO，解决大模型后训练「均值陷阱」。以风险度量优化替代均值优化，在多领域实验中表现突出，理论和消融实验也证明其能缓解熵坍缩，突破推理边界。>阅读原文

    </p>

官网：www.AiReadingHub.com