1. 面壁智能 & 清华发布中国首个 1.58-bit 大模型 BitCPM-CANN,基于华为昇腾全链路训练
日期: 2026 年 5 月 23-25 日
事件: 面壁智能联合清华大学、OpenBMB 开源社区,正式发布并开源 BitCPM-CANN——中国首个完全基于国产算力平台(华为昇腾)实现端到端训练的三值(1.58-bit)大模型。该成果于 5 月 23 日在华为鲲鹏昇腾开发者大会(KADC 2026)首次亮相,5 月 25 日正式向社会开源。
核心技术: 1.58-bit 三值量化,每个参数仅取 -1、0、+1 三个值,理论上每个参数仅需 1.58 bit 存储。
技术实现三步走:
| 步骤 | 内容 |
|---|---|
| 第一步 | 采用 STE(直通估计器) 方案,训练阶段保留全精度残差用于梯度更新,导出阶段输出严格三值权重 |
| 第二步 | 在昇腾上完整部署 量化感知训练(QAT) 与后训练蒸馏流程,训练吞吐量损失仅 5% |
| 第三步 | 将低比特能力沉淀为 MindSpeed 训练基础设施,基于 Megatron-LM 嵌入可插拔 QAT 并行线性层,支持 32K 长序列训练 |
模型尺寸与性能保留:
| 模型尺寸 | 全精度能力保留 | 推理显存需求 |
|---|---|---|
| 0.5B | ≥ 95.7% | 极低 |
| 1B | ≥ 95.7% | 低 |
| 3B | 97.2% (数学/代码接近全精度) | 约 1-2GB |
| 8B | ≥ 95.7% | 仅 2-3GB,主流旗舰手机可流畅运行 |
值得关注: 这是昇腾平台上第一个完整跑通 1.58-bit 训练的公开成果,且模型规模直达 8B 量级(而非几百兆的演示级模型)。在 HBM 内存价格暴涨 165%、高端 AI 芯片出口管制持续的背景下,BitCPM-CANN 证明:在硬件受限条件下,通过算法创新(低比特量化)依然可以训练出实用级大模型。对团队自建模型服务的启示: 推理显存成本可能是比参数规模更关键的瓶颈,1.58-bit 量化技术若能在生产环境落地,推理成本可压缩至原来的 1/6。
2. 微软 Fara 1.5 系列浏览器智能体发布,27B 版本成功率 72% 超越 OpenAI Operator
日期: 2026 年 5 月 21 日(发布)/ 5 月 25 日(国内报道)
事件: 微软研究院 AI Frontiers 实验室正式发布 Fara 1.5 系列智能体模型(4B / 9B / 27B),专为浏览器场景设计。模型配合 MagmaLite 沙盒浏览器环境,通过读取截图并模拟键鼠操作,自动完成网页任务。这是目前公开报告中同等参数规模下性能最强的浏览器智能体(CUA)模型家族。
核心性能数据:
| 基准测试 | Fara 1.5-9B | Fara 1.5-27B | OpenAI Operator | Gemini 2.5 Computer Use |
|---|---|---|---|---|
| WebVoyager 成功率 | 86.6% | 88.6% | 87.0% | 未公开 |
| Online-Mind2Web 成功率 | 63.4% | 72.0% | 58.3% | 57.3% |
| WebTailBench 过程成功率 | 64.5% | 71.8%(合成环境) | 79.6%(GPT-5.4) | — |
训练数据: 约 200 万条样本,其中 60% 来自真实网页任务轨迹,12.8% 为合成环境数据(登录、不可逆操作等高风险场景),12.5% 为表单填写与用户交互数据。
安全设计: 模型在三类关键场景强制请求用户确认:(1)任务缺少必要个人信息;(2)任务描述模糊;(3)即将执行不可逆操作(提交表单、发送邮件等)。
获取方式: Fara 1.5-9B 已上线 Microsoft Foundry 并集成至 MagmaLite 工具;4B 和 27B 即将上线;推理代码已开源至 GitHub - microsoft/fara。
值得关注: Fara 1.5 的意义不只是基准测试分数——它标志着浏览器自动化 Agent 已从Demo走向可落地产品。对团队而言,如果正在设计需要操作 Web UI 的 Agent 场景(如自动化测试、表单填报、竞品数据抓取),Fara 1.5 提供的开源基座和沙盒环境可以直接复用。另据往期记忆,微软 Build 2025 已发布 Entra Agent ID + MCP + NLWeb 等企业级 Agent 基础设施,Fara 1.5 是这一布局在端侧的具体落地。
3. 腾讯 ima Copilot 全面开放,同期推出「知识号 Skill 发布」平台
日期: 2026 年 5 月 25 日
事件: 腾讯人工智能知识管理平台 ima 宣布 Copilot 智能体功能结束为期一个月的灰度测试,正式全面开放。此前该功能因具备记忆、个性化定制等特性,吸引超过 10 万用户排队等候。同期,ima 推出「知识号」功能,支持用户将工作流封装成 Skill 并发布到「知识广场」Skills 专区,首批官方 Skill(微信读书、腾讯招聘等)已上线。
Copilot 核心能力:
| 能力 | 说明 |
|---|---|
| 知识库调用 | 可读取用户存储在 ima 中的笔记、文件、资料 |
| 外部模型 API 接入 | 支持用户自行接入各大模型 API |
| Skill 可扩展 | 通过安装 Skill 扩展能力边界 |
| 自然语言任务执行 | 「浏览网页 → 全网调研 → 生成可视化报告」等复杂任务一键完成 |
| 持续记忆 | 记住用户使用习惯、项目进度,越用越贴合个人需求 |
Skill 生态: 用户可将自己的工作流封装为 Skill 发布到知识广场,形成「AI 能力交易市场」。这本质上是将 Agent 的能力模块化、商品化,类似一个 AI 时代的「技能 App Store」。
值得关注: ima Copilot 的打法是知识管理 + Agent 执行 + Skill 生态三位一体,与 Notion AI、Obsidian AI 等纯知识管理工具形成差异化。对团队而言,如果正在构建内部知识库 + Agent 系统,ima 的 Skill 机制提供了一个可参考的「Agent 能力模块化分发」范式。另外,腾讯系产品(企业微信、腾讯文档)的深度集成可能是其独特优势。
4. DeepSeek V4-Pro API 宣布永久降价 75%,创全球大模型价格新低
日期: 2026 年 5 月 25 日(宣布)/ 6 月 1 日(生效)
事件: DeepSeek 宣布 DeepSeek-V4-Pro 模型 API 价格将永久调整为当前促销价格(即不再恢复原价)。调整后价格为:
| 计费项 | 调整前(原价) | 调整后(永久) | 降幅 |
|---|---|---|---|
| 输入(缓存命中) | 0.1 元/百万 tokens | 0.025 元/百万 tokens | 75% |
| 输入(缓存未命中) | 12 元/百万 tokens | 3 元/百万 tokens | 75% |
| 输出 | 24 元/百万 tokens | 6 元/百万 tokens | 75% |
背景: 此次降价紧随 DeepSeek V4-Pro 在 OpenRouter 平台使用量占比突破 60% 之后,被视为主动巩固市场地位的战略性定价。横向对比:DeepSeek V4-Pro 的定价仅为 Claude Opus 4.7 的约 1/8。
同步动态: 据 The Information 报道,宁德时代正接洽参与 DeepSeek 新一轮融资,京东、网易也在洽谈参投。这与 DeepSeek 加速推进商业化落地(降价换取规模)的战略方向一致。
值得关注: DeepSeek 的降价策略正在重塑全球大模型市场的成本结构。当头部国产模型的 API 价格降至 0.025 元/百万 tokens(缓存命中)时,几乎所有闭源模型的定价逻辑都受到冲击。对团队自建模型服务的决策而言:如果任务场景对模型能力的极致要求不高,直接使用 DeepSeek API 的经济性可能已经超过自建推理服务的成本——这需要重新算账。
5. 谷歌 CEO 皮查伊罕见承认:Coding 能力已落后竞品
日期: 2026 年 5 月 25 日(媒体报道)
事件: 谷歌 CEO 桑达尔·皮查伊(Sundar Pichai)在《纽约时报》科技播客采访中罕见公开承认:谷歌在 Coding(编程 AI)领域的能力已落后于主要竞争对手。此时距 Google I/O 2026 发布 Gemini 3.5 Flash、Gemini Omni、AI 助手 Spark 等一连串 AI 新品仅过去 5 天。
采访要点:
| 话题 | 皮查伊表态 |
|---|---|
| Coding 能力 | 承认已落后竞品(暗指 Claude Code、GitHub Copilot 等) |
| 搜索 AI 升级 | 搜索业务正经历 25 年来最大改版,但仍不敢完全转向 AI |
| 搜索智能体故障 | Google I/O 宣布的搜索智能体升级出现 AI「罢工」技术故障,社区讨论热烈 |
| Gemini 进展 | 过去 12 个月 Token 处理量达 3.2 千万亿,同比增长 7 倍;Gemini 月活用户达 9 亿 |
背景: Google I/O 2026 发布了 Gemini 3.5 Flash(推理追平 GPT-5.5)、Gemini Omni(视频生成模型)、AI 助手 Spark(全天候 Agent)等重磅产品,但 Coding 能力的短板在开发者社区中一直被诟病。皮查伊的公开承认,被视为谷歌对开发者社区压力的正式回应,也暗示接下来会有针对 Coding 场景的专项升级。
值得关注: 谷歌作为 AI 投入最大的科技公司之一(2026 年资本开支预计超 850 亿美元),公开承认 Coding 能力落后,说明编程 AI 已成为大模型竞争的新「兵家必争之地」。这对团队选型编程辅助工具提供了参考:当前阶段 Claude Code(Anthropic)和 GitHub Copilot(微软/OpenAI)在 Coding 场景确实仍有可感知的领先优势。
6. 字节跳动 MMProLong 发布:QA 训练优于 OCR,256K 上下文稳如狗
日期: 2026 年 5 月 24 日(报道)
事件: 字节跳动 Seed 团队联合香港科技大学,基于 Qwen2.5-VL 构建了多模态长文档模型 MMProLong,在长上下文(256K 乃至 512K tokens)场景下取得重要突破。核心发现:使用问答对(QA)训练显著优于传统的 OCR 转录式训练,能引导模型在超长上下文中精准检索目标段落,且无性能崩溃。
性能数据:
| 基准测试 | MMProLong | 对比模型(更大参数) | 说明 |
|---|---|---|---|
| MMLongBench | 超越 | InternVL3-38B | 长文档理解 |
| MM-NIAH | 超越 | Gemma3-27B | 多模态海底捞针 |
技术迁移: 该训练策略已成功迁移至 Qwen3-VL-8B,证明方法具有跨模型泛化能力。
核心洞察: 传统多模态长文档训练倾向于让模型「转录」整个文档(类似 OCR),但这实际上是一种低效的训练目标。MMProLong 发现,让模型在长文档中「回答问题」(QA 格式)能更有效地引导模型学习长距离依赖关系和目标信息检索能力。
值得关注: 对团队正在推进的 RAG(检索增强生成)系统有直接借鉴意义:如果正在用大模型处理超长文档(如技术手册、法规文件、研究报告),训练数据的格式(QA vs 纯文本)可能比模型参数规模对最终效果影响更大。另外,256K 上下文稳定推理意味着单机即可处理整本技术书籍级别的输入,对端侧部署也有启发。
7. AIGC 2026 峰会核心共识:推理算力将占 70%,Agent 产品范式定型
日期: 2026 年 5 月 20 日(峰会举办)/ 5 月 24-25 日(深度报道流出)
事件: 第四届中国 AIGC 产业峰会在北京举办,近 20 位 AI 领军人物(昆仑万维方汉、商汤林达华、复旦邱锡鹏、亚马逊云王晓野、Fusion Fund 张璐等)发表演讲,形成多项行业共识。
核心共识一:算力分配正在反转
| 时期 | 训练算力占比 | 推理算力占比 |
|---|---|---|
| 2023-2024 | ~70% | ~30% |
| 2026 及未来 | ~30% | ~70% |
硅谷投资人张璐(Fusion Fund)在峰会上强调:推理算力是可持续需求,而训练算力是一次性的。AI 基础设施的投资逻辑需要随之调整——数据中心通信能耗是计算的几十到上百倍,降低通信能耗比堆算力更关键。
核心共识二:Agent 产品范式已基本定型
趣丸科技副总裁庄明浩在峰会前沿圆桌中指出,Agent 产品的 UI/UX 范式已基本收敛为**「三栏结构」**:左边项目/会话列表,中间对话/任务流,右边 runtime/浏览器实时展示任务执行结果。这一范式由 Claude Code / Cursor 等产品的实践沉淀而来,已成为 Agent 产品的「行业标准布局」。
核心共识三:Token 消费分层已成现实
| 用户类型 | 月均 Token 消耗 |
|---|---|
| 普通知识工作者 | 数百万 ~ 数千万 |
| AI Coding 技术人员 | 数十亿 |
| 重度 Agent 使用者(全自动化工作流) | 百亿级 |
昆仑万维方汉指出:Token 已成为 AI 时代的「电力」指标,不同用户群体的 Token 消耗差异高达 1000 倍,这将重塑 AI 产品的定价和商业模式。
值得关注: 峰会的共识直接回应了团队正在推进的工作:
- 推理算力占比 70% → 自建模型服务的成本结构计算中,推理集群的 TCO(总拥有成本)权重远超训练集群;
- Agent 三栏范式 → 如果正在设计内部 Agent 工具的产品形态,直接参考三栏结构可以降低用户学习成本;
- Token 消费分层 → 为不同角色(开发/产品/运营)设计不同的 Token 配额策略,比统一限流更合理。
8. 2026 全球人工智能技术大会发布《人工智能关键能力清单 1.0》,国家 AI 产业知识产权运营中心揭牌
日期: 2026 年 5 月 23-24 日(杭州)
事件: 由中国人工智能学会(CAAI)主办的 2026 全球人工智能技术大会 在杭州未来科技城举办,汇聚中外院士及权威专家,发布多项重磅成果。
大会核心成果:
| 成果 | 说明 |
|---|---|
| 国家级人工智能(关键应用)产业知识产权运营中心 | 正式揭牌,是国内首个聚焦 AI 关键应用知识产权运营的国家级平台 |
| 《人工智能关键能力清单 1.0》 | 首次系统性梳理 AI 产业关键能力矩阵,涵盖基础大模型、智能体、多模态、安全合规等维度 |
| 2026 年度 CAAI-蚂蚁科研基金(AGI 专项) | 发布,聚焦 AGI 前沿研究 |
| 2026 全球人工智能创新创业大赛 | 正式启动 |
院士观点(潘云鹤,浙江大学教授、中国工程院原常务副院长):
当前大模型面临三大现实问题: (1)幻觉问题;(2)通用模型专业适配不足;(3)工业互联网语义瓶颈。未来方向:(1)依托高质量专业数据构建专业大模型;(2)推动智能体与大模型协同;(3)深化 AI 与数智工程、各行业融合创新。
值得关注: 《人工智能关键能力清单 1.0》是继工信部「模数共振」行动之后,又一从国家层面系统梳理 AI 产业能力的文件。对团队而言,如果正在评估自建模型服务的合规性和安全性,对照这份清单进行差距分析(Gap Analysis)是一个高效的方法。另外,国家 AI 产业知识产权运营中心的揭牌,意味着 AI 专利和知识产权的商业化运作将加速,提前布局相关专利可能是值得考虑的战略动作。
今日趋势总结
今天 AI 领域的核心主题可以概括为 "效率革命与产品范式收敛" :
- 低比特量化从学术走向生产:BitCPM-CANN(1.58-bit)在华为昇腾上跑通 8B 模型训练+推理,证明显存压缩 6 倍仍保留 95%+ 全精度能力。这对所有受 HBM 成本困扰的团队都是直接可借鉴的技术路径。
- 浏览器 Agent 进入产品化阶段:微软 Fara 1.5 在 Online-Mind2Web 上达到 72% 成功率,超越 OpenAI Operator。Agent 从「能跑 Demo」到「能交付任务」的临界点正在被突破。
- 价格战重塑全球格局:DeepSeek V4-Pro 永久降价 75%,将国产大模型的性价比优势固化。当 API 价格降至 0.025 元/百万 tokens,自建 vs 采购的经济账需要重新算。
- Agent 产品范式收敛:AIGC 2026 峰会多位嘉宾确认,Agent 产品的「三栏结构」已成为事实标准。这对产品设计和竞品分析都有直接参考价值。
- 推理算力占比持续上升:从训练 70%/推理 30%,向训练 30%/推理 70% 反转。所有涉及 AI 基础设施规划的决策,都需要以这个新比例作为基准假设。
- 国内 AI 知识产权布局加速:国家 AI 产业知识产权运营中心揭牌 +《人工智能关键能力清单 1.0》发布,合规和专利布局从「可选项」变为「必选项」。
信息来源:新浪科技、21 经济网、ChinaZ、IT 之家、微软研究院官网、凤凰科技、知乎、AIGC 峰会报道、中国人工智能学会等