以下内容包括「人工智能生成内容」
DeepSeekV3.1 测试结果、代理链模型技术突破、智谱推出 AutoGLM2.0、Google 发布 Pixel10
👏在昨天(2025.8.20),AI领域有这些内容可能值得你关注:
Deepseek V3.1 在推理与编程中表现突出,但存在审美与稳定性缺陷
DeepSeek V3.1 的上下文窗口从 64K 扩展到 128K,新增特殊 Token 如 <think> 和 |search begin|,显式支持思维链和网络搜索功能。这些架构变化提升了模型处理复杂任务的能力,尤其在需要实时信息或逻辑推演的场景中。
在编程基准测试 Aider 中,V3.1 以 71.6%的得分首次超过 Claude 4 Opus, 成本仅为 Opus 的 1/68 。测试中,它高效开发了基于 Web Audio API 的音乐播放器,代码无需修改即可运行,视觉动效与音乐节奏完美匹配。然而,面对需要精确物理模拟的任务,如 p5.js 小球弹跳,模型多次失败,小球溢出边界且缺乏物理规律。
推理能力上,V3.1 在“星球殖民”问题中表现出色,综合考虑距离、资源和风险,数据阐述比 Gemini 2.5 Pro 更详细。科研辅助方面,它能提出可行的多模态 AIGC 检测方向,但缺乏学术故事包装能力, **“它能给骨架,但血肉和灵魂,还得靠人类自己” **。
超长文本生成测试暴露了稳定性问题。模型在编写万字小说时突然中断并返回“无法回答”,但后续查询又恢复正常, “这“失忆”又“恢复”的无缝衔接,让人觉得它真的是人格分裂” 。此外,审美设计严重不足,编程时生成的“三维全息宇宙”背景被形容为 10 年前的网页风格。
代理链模型能够大幅降低AI推理成本 84.6%
Chain-of-Agents(代理链)技术实现了重大突破 ,通过多智能体蒸馏与智能体强化学习的结合,成功训练出具备多代理系统能力的单一基础模型。该模型在保持竞争力的同时,显著减少了推理令牌和工具调用,令牌成本降低了惊人的 84.6%。
相较于传统多智能体系统,AFM(Agent Foundation Model)展现出卓越的鲁棒性和 泛化能力,特别是在需要严格格式化的场景下,能够更好地适应未见过的工具。测试结果显示,Best-of-3 和 pass@3 策略显著提升了模型性能,在 GAIA 和 HLE 基准测试中分别达到 69.9 和 33.2 的优异成绩。
Hugging Face 多模态模型技术分享会将于今晚举办
一场关于多模态人工智能模型的技术分享会将于 2025 年 8 月 21 日晚 8 点至 10 点在线举行。本次活动由 Hugging Face、OpenMMLab、ModelScope、知乎和机智流等机构联合发起,邀请了多个知名开源多模态模型的核心研发人员进行深度技术分享。
本次活动的嘉宾阵容强大,包括上海人工智能实验室的 陈恺 ,他将介绍 Intern-S1 科学多模态大模型。这个模型融合了书生大模型家族的优势,在语言和多模态性能上实现了高水平均衡,特别强化了科学能力,是目前开源多模态大模型中综合性能最优的模型之一。
MiniCPM-V 和 MiniCPM-o 的技术负责人 姚远 将分享如何在手机等端侧设备上实现高效的多模态模型。他们的最新模型 MiniCPM-V 4.0 仅用 40 亿参数就达到了与 GPT-4.1-mini 相当的视觉语言理解性能,并能在手机设备上低延迟运行。
智谱 AI 的研究员 余文梦 将介绍 GLM-V 系列模型在通用推理方面的突破。他们提出的基于课程采样的强化学习方法,在 STEM 推理、GUI Agents、视频理解等多个任务上实现了显著提升。GLM-4.5V 在 42 项公开基准测试中,几乎在所有同规模开源模型中取得领先。
阿里巴巴国际数字商业集团的高级算法专家 卢世银 将分享 Ovis 多模态大模型的创新架构。该模型通过引入可学习的视觉嵌入表,将视觉特征转化为概率化的视觉 token,实现了视觉与文本嵌入的结构化对齐,解决了传统方法中多模态信息融合的难题。
阶跃星辰的研究员 孙泉 将介绍 Step3 和 NextStep-1 模型。Step3 基于混合专家架构,拥有 3210 亿参数,在不同硬件平台上都能保持卓越的多模态推理能力。NextStep-1 则探索了新的自回归图像生成范式,在文生图和图像编辑任务上表现出优异性能。
智谱推出 AutoGLM 2.0
近日,智谱 AI 正式发布了 AutoGLM 2.0 版本,这是一款能够在云端自主操作手机和电脑应用的智能助手。与传统的对话型 AI 不同,这款产品真正实现了从“对话”到“执行”的跨越,让 人工智能 能够代替用户完成实际任务。 AutoGLM 2.0 的核心创新在于采用了“ Agent +云手机+云电脑”的技术模式。这意味着 AI 助手不是在用户本地设备上运行,而是在云端配备专属的虚拟手机和电脑环境。当用户需要点外卖、订机票或者处理工作时,只需通过语音或文字下达指令,AutoGLM 就会在云端操作相应的应用程序,完整执行整个流程,而用户的真实手机可以同时进行其他操作,比如玩游戏或刷视频。
Google Pixel 10 系列发布,AI 整合深化但市场份额仍承压
谷歌在纽约举办的年度硬件发布会上推出了 Pixel 10 系列智能手机及配套设备。新机型延续了前代设计,但基础款首次增加长焦镜头,与高端型号配置保持一致。全系搭载 Tensor G5 处理器,并引入类似苹果 MagSafe 的磁吸充电技术 Pixelsnap,同时推出多款配套充电配件。 AI 功能成为此次升级的核心亮点 。相机应用内置“拍摄教练”功能,可实时指导用户构图;智能助手能主动推送情景信息,例如在用户拨打航空公司电话时自动显示航班确认邮件。这些改进延续了谷歌将人工智能深度植入硬件生态的战略方向。
价格策略保持稳定,基础款起售价 799 美元,折叠屏版本为 1799 美元。这一定价与去年持平,缓解了市场对关税可能导致手机涨价的担忧。新机将于本月陆续上市,折叠屏版本预计 10 月发货。
尽管谷歌持续加码 AI 功能并调整发布会时间以抢占先机,市场份额仍未实现突破。IDC 数据显示,其全球智能手机占有率仅从 0.9%微增至 1.1%,在美国市场甚至从 4.5%下滑至 4.3%。 Pixel 系列近 75%的销量集中在美国、日本和英国 ,高端市场定位限制了其全球扩张。
同期发布的还包括 Pixel Watch 4 智能手表和 Pixel Buds 2a 耳机,但后者仅增加了新配色和软件更新。谷歌硬件发布会历来是展示 Android 系统潜力的窗口,但面对三星、小米等安卓厂商的竞争,Pixel 的销量始终未能形成规模效应。
👏大家好,这里是 Memene 摸鱼日报,致力于为您带来每日AI领域的资讯八卦,让你在上班摸鱼的同时只需多花那么几分钟便可以快速了解 AI 领域的资讯新闻。
我们是一家位于杭州的AI创业团队。以上是我们还在测试的产品的 Memene 的生成效果内容。因为希望得到社区朋友们的反馈,于是我们来掘金社区发布了我们的 Memene 摸鱼日报专栏。
🥳如果您有什么意见,还请在评论区与我们反馈。我们非常期望能够得到大家的真实反馈。
以上内容基于 人工智能前瞻报 Meme 与 学AI技术,懂? Meme 再生成。如果您有兴趣🥰可以点击前边链接查看全部内容。或者来试试订阅。