「Memene 摸鱼日报 2025.08.21」DeepSeekV3.1 测试结果、代理链模型技术突破、智谱推出 AutoGLM2.0

以下内容包括「人工智能生成内容」

DeepSeekV3.1 测试结果、代理链模型技术突破、智谱推出 AutoGLM2.0、Google 发布 Pixel10

👏在昨天（2025.8.20），AI领域有这些内容可能值得你关注：

Deepseek V3.1 在推理与编程中表现突出，但存在审美与稳定性缺陷

DeepSeek V3.1 的上下文窗口从 64K 扩展到 128K，新增特殊 Token 如 <think> 和 ｜search begin｜，显式支持思维链和网络搜索功能。这些架构变化提升了模型处理复杂任务的能力，尤其在需要实时信息或逻辑推演的场景中。

在编程基准测试 Aider 中，V3.1 以 71.6％的得分首次超过 Claude 4 Opus， 成本仅为 Opus 的 1／68 。测试中，它高效开发了基于 Web Audio API 的音乐播放器，代码无需修改即可运行，视觉动效与音乐节奏完美匹配。然而，面对需要精确物理模拟的任务，如 p5.js 小球弹跳，模型多次失败，小球溢出边界且缺乏物理规律。

推理能力上，V3.1 在“星球殖民”问题中表现出色，综合考虑距离、资源和风险，数据阐述比 Gemini 2.5 Pro 更详细。科研辅助方面，它能提出可行的多模态 AIGC 检测方向，但缺乏学术故事包装能力， **“它能给骨架，但血肉和灵魂，还得靠人类自己” **。

超长文本生成测试暴露了稳定性问题。模型在编写万字小说时突然中断并返回“无法回答”，但后续查询又恢复正常， “这“失忆”又“恢复”的无缝衔接，让人觉得它真的是人格分裂” 。此外，审美设计严重不足，编程时生成的“三维全息宇宙”背景被形容为 10 年前的网页风格。

代理链模型能够大幅降低AI推理成本 84.6%

Chain－of－Agents（代理链）技术实现了重大突破，通过多智能体蒸馏与智能体强化学习的结合，成功训练出具备多代理系统能力的单一基础模型。该模型在保持竞争力的同时，显著减少了推理令牌和工具调用，令牌成本降低了惊人的 84.6％。

相较于传统多智能体系统，AFM（Agent Foundation Model）展现出卓越的鲁棒性和泛化能力，特别是在需要严格格式化的场景下，能够更好地适应未见过的工具。测试结果显示，Best－of－3 和 pass＠3 策略显著提升了模型性能，在 GAIA 和 HLE 基准测试中分别达到 69.9 和 33.2 的优异成绩。

Hugging Face 多模态模型技术分享会将于今晚举办

一场关于多模态人工智能模型的技术分享会将于 2025 年 8 月 21 日晚 8 点至 10 点在线举行。本次活动由 Hugging Face、OpenMMLab、ModelScope、知乎和机智流等机构联合发起，邀请了多个知名开源多模态模型的核心研发人员进行深度技术分享。

本次活动的嘉宾阵容强大，包括上海人工智能实验室的陈恺，他将介绍 Intern－S1 科学多模态大模型。这个模型融合了书生大模型家族的优势，在语言和多模态性能上实现了高水平均衡，特别强化了科学能力，是目前开源多模态大模型中综合性能最优的模型之一。

MiniCPM－V 和 MiniCPM－o 的技术负责人姚远将分享如何在手机等端侧设备上实现高效的多模态模型。他们的最新模型 MiniCPM－V 4.0 仅用 40 亿参数就达到了与 GPT－4.1－mini 相当的视觉语言理解性能，并能在手机设备上低延迟运行。

智谱 AI 的研究员余文梦将介绍 GLM－V 系列模型在通用推理方面的突破。他们提出的基于课程采样的强化学习方法，在 STEM 推理、GUI Agents、视频理解等多个任务上实现了显著提升。GLM－4.5V 在 42 项公开基准测试中，几乎在所有同规模开源模型中取得领先。

阿里巴巴国际数字商业集团的高级算法专家卢世银将分享 Ovis 多模态大模型的创新架构。该模型通过引入可学习的视觉嵌入表，将视觉特征转化为概率化的视觉 token，实现了视觉与文本嵌入的结构化对齐，解决了传统方法中多模态信息融合的难题。

阶跃星辰的研究员孙泉将介绍 Step3 和 NextStep－1 模型。Step3 基于混合专家架构，拥有 3210 亿参数，在不同硬件平台上都能保持卓越的多模态推理能力。NextStep－1 则探索了新的自回归图像生成范式，在文生图和图像编辑任务上表现出优异性能。

智谱推出 AutoGLM 2.0

近日，智谱 AI 正式发布了 AutoGLM 2.0 版本，这是一款能够在云端自主操作手机和电脑应用的智能助手。与传统的对话型 AI 不同，这款产品真正实现了从“对话”到“执行”的跨越，让人工智能能够代替用户完成实际任务。 AutoGLM 2.0 的核心创新在于采用了“ Agent ＋云手机＋云电脑”的技术模式。这意味着 AI 助手不是在用户本地设备上运行，而是在云端配备专属的虚拟手机和电脑环境。当用户需要点外卖、订机票或者处理工作时，只需通过语音或文字下达指令，AutoGLM 就会在云端操作相应的应用程序，完整执行整个流程，而用户的真实手机可以同时进行其他操作，比如玩游戏或刷视频。

Google Pixel 10 系列发布，AI 整合深化但市场份额仍承压

谷歌在纽约举办的年度硬件发布会上推出了 Pixel 10 系列智能手机及配套设备。新机型延续了前代设计，但基础款首次增加长焦镜头，与高端型号配置保持一致。全系搭载 Tensor G5 处理器，并引入类似苹果 MagSafe 的磁吸充电技术 Pixelsnap，同时推出多款配套充电配件。 AI 功能成为此次升级的核心亮点。相机应用内置“拍摄教练”功能，可实时指导用户构图；智能助手能主动推送情景信息，例如在用户拨打航空公司电话时自动显示航班确认邮件。这些改进延续了谷歌将人工智能深度植入硬件生态的战略方向。

价格策略保持稳定，基础款起售价 799 美元，折叠屏版本为 1799 美元。这一定价与去年持平，缓解了市场对关税可能导致手机涨价的担忧。新机将于本月陆续上市，折叠屏版本预计 10 月发货。

尽管谷歌持续加码 AI 功能并调整发布会时间以抢占先机，市场份额仍未实现突破。IDC 数据显示，其全球智能手机占有率仅从 0.9％微增至 1.1％，在美国市场甚至从 4.5％下滑至 4.3％。 Pixel 系列近 75％的销量集中在美国、日本和英国，高端市场定位限制了其全球扩张。

同期发布的还包括 Pixel Watch 4 智能手表和 Pixel Buds 2a 耳机，但后者仅增加了新配色和软件更新。谷歌硬件发布会历来是展示 Android 系统潜力的窗口，但面对三星、小米等安卓厂商的竞争，Pixel 的销量始终未能形成规模效应。

👏大家好，这里是 Memene 摸鱼日报，致力于为您带来每日AI领域的资讯八卦，让你在上班摸鱼的同时只需多花那么几分钟便可以快速了解 AI 领域的资讯新闻。

我们是一家位于杭州的AI创业团队。以上是我们还在测试的产品的 Memene 的生成效果内容。因为希望得到社区朋友们的反馈，于是我们来掘金社区发布了我们的 Memene 摸鱼日报专栏。

🥳如果您有什么意见，还请在评论区与我们反馈。我们非常期望能够得到大家的真实反馈。

以上内容基于人工智能前瞻报 Meme 与学AI技术，懂？ Meme 再生成。如果您有兴趣🥰可以点击前边链接查看全部内容。或者来试试订阅。