AI日报：Hugging Face创始人与小红书高管谈开源与AI; MiniMax M2发布，成开源模型第一; 英伟达拟10亿美元投资AI编码创企Poolside

All in AI，看见未来。每天精选最值得读的AI文章，帮你筛掉时代的噪音。以简讯见广度，以深读见洞察。技术、趋势、思考，一站式掌握AI世界。欢迎关注公众号「AI Reading Hub」，获取更多AI资讯和技术文章。

2025-11-01 资讯日报

新闻资讯

Hugging Face创始人与小红书高管谈开源与AI

小红书技术副总裁凯奇、语音负责人风龙与Hugging Face创始人Thomas Wolf认为，开源推动技术发展，AGI虽会到来但有挑战，技术人核心竞争力转变，AI让非技术者也能指挥计算机。>阅读原文

MiniMax M2发布，成开源模型第一

10月27日MiniMax发布M2及MiniMax Agent。M2为专家混合模型，参数大但推理成本低。在评测中表现优异，能实现端到端工作流，价格实惠，开发者称赞，是“能干活”的生产力大模型。>阅读原文

英伟达拟10亿美元投资AI编码创企Poolside

英伟达拟最高投10亿美元给Poolside。其由微软技术大佬创办，认为应专注软件开发AI。团队创建强化学习法，从底层自研技术，预计2025年发核心模型，欲推动软件开发范式转变。>阅读原文

Nano Banana助力谷歌营收创新高

谷歌借Nano Banana让Gemini爆火，单季营收破千亿。该模型由多团队融合能力打造，引发全球热潮，吸引年轻和国际用户。谷歌关注用户留存粘性，后续将改进模型不足，拓展应用场景。>阅读原文

Unity大会：AI开启游戏开发新时代

2025 Unity开发者大会凸显AI+游戏趋势。Unity引擎推AI Graph，降门槛促创意；AWS用AI覆盖游戏全周期；Meshy助力3D创作。不过玩家抵触AI，游戏公司要建规则赢信任。>阅读原文

OpenAI：GPT - 5智能体Aardvark命中92%漏洞

OpenAI推出智能体Aardvark，用GPT - 5找修安全漏洞，识别率达92%。它工作原理独特，与传统不同。能自动分析、验证、修复漏洞，还可与开发者协作，或改变网络安全格局。>阅读原文

摩尔线程IPO获批，募资80亿研发GPU

摩尔线程仅用4个月通过IPO注册，计划募资80亿用于研发。公司业务聚焦GPU，核心技术是MUSA架构，已推四代芯片，营收增长、亏损收窄，预计2027年盈利。>阅读原文

微软AI新天团曝光，谷歌系超1/3

微软AI新天团曝光，由苏莱曼领导的17人核心团队中，新增9人里5位来自谷歌系，8位老将中有2位来自Inflection AI。团队聚焦产品落地、安全隐私及商业化，将挑战OpenAI和谷歌。>阅读原文

台积电Q3财报亮眼，受益AI扩张红利

台积电2025年Q3财报出色，收入、毛利率超预期。受AI和手机业务带动，先进制程产能满载。资本开支上调，下季度指引佳。技术领先，在AI产业链地位重要，将受益于AI Capex扩张。>阅读原文

OpenAI三人小组豪赌超级人工智能

Will Depue等三人小组：目标超级人工智能ASI；OpenAI奥特曼：已掌握AGI方法，目标转向ASI；Meta扎克伯格：豪赌ASI，投入巨大但回报不明，市场谨慎。>阅读原文

摩尔线程科创板IPO注册获批

10月30日摩尔线程科创板IPO注册获批，其从受理到过会仅88天。该公司由张建中创立，构建智算产品线，夸娥万卡智算方案有超大算力等特性，助力国产高端AI芯片发展。>阅读原文

OpenAI公开浏览器Atlas核心架构OWL

OpenAI公开浏览器Atlas核心架构OWL。它将Atlas与Chromium分离，带来启动快、响应流畅等优势，还方便开发。此外，针对智能体模式也有特殊处理，为新型体验开辟空间。>阅读原文

DeepMind论文：GPT-5推理靠世界模型

DeepMind研究揭示GPT-5推理能力强的秘密：通用智能体靠“世界模型”变聪明。实验表明任务越复杂，世界模型越准确，它或是AI进化必需品，也为破解AI黑箱带来希望与隐忧。>阅读原文

Cognition推SWE-1.5，速度吊打Cursor新模型？

Cognition推出SWE-1.5编码模型，速度最高达950 token/秒，在基准测试成绩佳。它基于GB200芯片训练，有定制编码环境。与Cursor Composer对比，速度是其4倍，但用户反馈效果不一。>阅读原文

OpenAI季度净亏115亿，微软“输血”无怨言

微软透露因投资OpenAI亏损31亿美元，推算出OpenAI上季度净亏115亿。但这可能是研发投入，是AI产业竞争所致，微软为战略需求补贴，英伟达却借此市值高涨。>阅读原文

理想汽车在 AI 顶会揭幕自动驾驶新范式

理想汽车自动驾驶团队在 ICCV 2025 上揭幕新范式，提出从数据闭环到训练闭环思路。面对数据瓶颈，构建 VLA 车端模型和云端世界模型训练环境，其多项研究成果入选大会，还聚焦新方向推动行业发展。>阅读原文

首程控股开启机器人产业生态营

首程控股发起中国机器人产业生态营，整合资源构建创新生态。旗下100亿基金已投资多家企业，学员多元分享经验，罗振宇带来AI洞见，后续专家将授课助力产业发展。>阅读原文

全国首个视听可信空间落地北京朝阳

2025年10月29日，‘北京视听数据可信空间’在朝阳区启动建设，这是全国首个聚焦大视听产业的可信数据空间。它依托创新中心，为企业提供服务，推动视听数据资产化，构建AIGC视听新生态。>阅读原文

OpenAI算力饥渴，国产模型应用迎突破

新智元：十月AI领域，GPT - 5领先，中国6款开源模型进前20。OpenAI现‘算力饥渴’，欲买全球GPU。国产模型和应用有突破，未来算力将成AI竞争胜负手。>阅读原文

AI黄仁勋直播诈骗，10万人被骗82万

GTC 2025大会上，英伟达官方直播黄仁勋演讲，在线人数少，而假的AI黄仁勋直播却吸引近10万观众搞诈骗，数千人被骗82万，凸显当下AI伪造技术易以假乱真。>阅读原文

英伟达或投10亿，Poolside欲借开发实现AGI

Bloomberg消息，英伟达或对Poolside投资5 - 10亿。Poolside由Github前CTO创立，从AI Coding转型，欲以软件开发实现AGI，认为强化学习是关键。此外，AI用于二手电商，月增长达100%。>阅读原文

产品应用

实测小跃Agent：功能多但有不足

实测阶跃星辰桌面Agent小跃，它形态新颖，能联网、处理表格等，可复用操作、定时执行任务，在编程上可当实时助手，但速度慢、调试代码有不足，Agent是未来趋势。>阅读原文

智谱API：5分钟搞定对接，引领Agent时代

作者称对接智谱API 5分钟搞定，体验极佳。指出Agent工作流中文档质量影响大，2025年后AI Agent成API主要用户。智谱秉持Agent First思维，国产编程模型性价比不错，可作备选。>阅读原文

自动驾驶公司纷纷标配飞书提效

2025年自动驾驶行业发展迅猛，诸多企业选飞书提效。地平线用其管理知识，Momenta打通流程，四维图新办大赛促提效，飞书成物理AI加速器，助企业在竞争中领先。>阅读原文

探索规范驱动开发的三款工具

作者探索规范驱动开发（SDD），试用 Kiro、spec - kit 和 Tessl 工具。指出 SDD 定义不明确，工具存在不适合多数编程问题、审查体验差、控制难等问题，还需从过去规范到代码的尝试中学习。>阅读原文

对话Tunee：解锁AI音乐创作新玩法

量子位智库对话Tunee负责人贾朔。Tunee以对话式交互降低音乐创作门槛，适配不同用户需求。团队关注用户对话轮次和时长，未来聚焦对话质量与稳定性，还推出AI吉他探索新形态。>阅读原文

Unsloth修复Qwen3-VL问题并发布运行指南

Unsloth团队修复Qwen3-VL系列模型聊天模板问题，重新上传量化文件。介绍不同规格模型硬件需求与表现，给出部署步骤和参数差异，展示多模态能力，提供多种格式模型及微调工具，本地部署较成熟。>阅读原文

GPTBots：3案例玩转多智能体协作

PaperAgent介绍GPTBots平台多智能体系统玩法。多智能体协作优势大，有合作、竞争、竞合三种模式，通过三个案例展示应用，还给出添加记忆等进阶建议，掌握技巧可构建智能系统。>阅读原文

Airbnb推Mussel V2统一流和批处理

Airbnb推出Mussel v2，重构键值引擎统一流和批处理。它解决了v1局限性，如运维开销大等问题。迁移虽复杂，却成功在不停机下迁移超1PB数据，提升效率与扩展性。>阅读原文

腾讯音乐用 AutoMQ 降 Kafka 成本超 50%

腾讯音乐运维团队：传统 Kafka 运维复杂、成本高，选 AutoMQ 后成本降超 50%，获秒级扩缩容能力。后续计划全面迁移、落地流式入湖等，推动数据基建云原生。>阅读原文

华为Doc - Researcher破解多模态文档处理难题

CourseAI指出，现有深度研究系统处理多模态文档能力不足。华为Doc - Researcher通过深度多模态解析、检索架构、多智能体协作等模块，解决解析、检索和研究能力问题，还可用M4DocBench测试。>阅读原文

开源动态

Zerox：AI视觉OCR神器，多格式文档通吃

开源君发现开源OCR工具Zerox，它不依赖传统OCR引擎，用AI视觉模型处理文档。能精准解析复杂布局，支持20 + 文档格式，多模型兼容，适合文档处理用户和开发者。>阅读原文

智谱联合清华开源Kaleido视频生成模型

合肥工业大学、清华、智谱开源多主体参考视频生成模型Kaleido。它通过新数据构建法和架构设计，解决主角与背景混淆问题，实验证明其在多维度表现优，超越现有开源模型。>阅读原文

Moonshot AI：Kimi Linear或超全注意力架构

Moonshot AI发布Kimi Linear技术报告，采用混合线性注意力架构，官方数据显示性能优越，已开源。社区看法不一，而MiniMax刚回归全注意力架构，其性能有待用户检验。>阅读原文

DeepAnalyze：首个自主数据科学智能体

小G介绍DeepAnalyze：业界首个自主数据科学智能体大语言模型，能自动完成数据任务，支持多数据源，完全开源。还给出使用步骤、开发方法及评估方式，可参考官网和项目地址。>阅读原文

月之暗面：Kimi 开源新架构押注线性注意力

月之暗面开源 Kimi Linear 架构，押注线性注意力。其核心 Kimi Delta 注意力优化门控规则，结合全注意力层，实现卓越性能与效率，在多任务中领先，引发对线性与全注意力发展方向的探讨。>阅读原文

Kimi开源架构：推理速度暴涨6倍

月之暗面开源Kimi Linear架构，以Kimi Delta Attention为核心创新，改进线性注意力机制。实验显示，它在多基准测试超Transformer，长上下文推理加速6倍、缓存降75%，或推动AI架构多元创新。>阅读原文

麻省理工等用多智能体框架刷新地理建模SOTA

麻省理工等机构发布GeoEvolve框架，融合地理知识与进化算法。在空间插值和预测不确定性量化实验中，性能超以往基准。其成功关键在于知识引导进化，有望用于多领域地理模型创建。>阅读原文

OpenAI开源两款安全推理大模型

OpenAI开源GPT - OSS - Safeguard - 120B和20B安全推理模型，适配不同显存。具备安全推理训练、自带策略等亮点，采用宽松许可证，适用于安全场景。>阅读原文

Emu3.5多模态模型开源，性能媲美Nano Banana

北京智源研究院推出Emu3.5多模态世界模型，用超10万亿token数据预训练，提出DiDA提升推理效率。它性能媲美Nano Banana，能实现分步骤指导、故事生成等功能，项目已开源。>阅读原文

算法论文

星绽操作系统论文获SOSP'25最佳论文

星绽操作系统论文获SOSP'25最佳论文。它解决传统系统安全与性能不能兼顾的问题，提出CortenMM内存管理系统。还首创框内核架构，已开源一年，有多项成果，制定了五年发展计划。>阅读原文

UNCOMP：从矩阵熵解LLM深层稀疏之谜

香港大学熊璟团队论文UNCOMP被EMNLP 2025接收。其引入截断矩阵熵解释LLM深层稀疏，据此设计框架优化KV Cache，实现计算与内存联合优化，实验中Prefill加速60%，吞吐量提6.4倍。>阅读原文

腾讯SpecExit算法：大模型推理端到端加速2.5倍

腾讯发布SpecExit算法，融合思考早停与投机采样。实验显示，它在多模型和数据集上显著缩短推理长度、加速推理，且精度无损，无额外探测开销，泛化能力好，实用价值高。>阅读原文

研究：大模型中间层可反推原始输入

GLADIA Research Lab研究指出，主流Transformer语言模型是可逆的，实验验证其单射性，SIPIT算法能准确重建输入。该研究有新视角，但实际应用受质疑，提醒关注隐私安全。>阅读原文

NTU&阶越提出IGGT 3D重建模型

NTU与StepFun提出IGGT模型，将空间重建与实例级上下文理解统一。构建InsScene - 15K数据集，首创实例接地场景理解范式。IGGT能同时完成重建、理解和跟踪任务，性能大幅提升。>阅读原文

港科 ROVER 算法革新大模型数学推理范式

香港科技大学等团队提出 ROVER 算法革新大模型推理范式。它跳过策略迭代，在数学推理基准上表现超传统方法，提升推理多样性和性能，更轻量，启示结构化任务简化才是关键。>阅读原文

范浩强团队让VLA模型单卡4090跑到30fps

Dexmal原力灵机团队研究发现，Pi0级VLA模型在单张RTX 4090上最快30fps。他们优化模型解决延迟痛点，成果开源，还设计框架，展望了VLA模型更高帧率、更大参数等未来可能。>阅读原文

VIST框架：视觉方式高效处理长文本

南京理工大学等校团队提出VIST框架，以视觉方式处理长文本。它让模型像人一样速读，减少56%的Token需求和50%的内存，在多任务中表现出色，为多模态智能理解铺路。>阅读原文

    </p>

官网：www.AiReadingHub.com