AI前沿简报20250827——谷歌“小香蕉nano banana”发布后好评如潮,国务院发布首部AI+行动意见,英伟达发布新一代机器人平台

138 阅读3分钟

大家好,我是ALLMHUB,AI前沿简报将为您定期整理AI最新咨询,助您在极短的时间里了解AI界的各类大事件。

本期,AI领域迎来重大进展,谷歌发布地表最强图像编辑模型Gemini 2.5 Flash Image,微软开源90分钟超长语音合成模型,Anthropic推出Claude浏览器扩展实现自动化操作。同时,阿里音视频同步生成技术、xAI编程模型限免、国务院AI+政策等多项突破性进展,标志着AI技术正全面渗透各个应用场景,推动智能化时代加速到来。


国务院发布"人工智能+"行动意见

中国国务院发布首部"人工智能+"行动政策,涵盖科技、产业、消费、民生、治理、合作六大领域,明确2035年全面进入智能经济目标。

谷歌Gemini 2.5 Flash Image登顶榜首

Google正式发布Gemini 2.5 Flash Image预览版,在LMArena图像编辑竞技场以领先第二名180 ELO分的优势登顶,胜率超过85%。

xAI推出Grok Code Fast编程模型

xAI正式发布首款编程专用模型Grok Code Fast 1(代号Sonic),具备256K上下文窗口,现已在主流AI编程工具上限时免费开放,速度表现出色。

谷歌翻译升级AI实时对话功能

Google Translate推出AI驱动的实时对话翻译功能,支持超过70种语言,并新增个性化语言学习练习,目前仅在美国、印度及墨西哥上线。

阿里开源Wan2.2-S2V音频驱动视频模型

阿里Wan团队正式开源Wan2.2-S2V-14B模型,用户只需输入静态图像与音频,即可生成480P(最高720P)的动态视频,现已在Hugging Face开放体验。

字节跳动内测3D模型生成工具

字节跳动豆包团队正在研发"3D Model Generator"工具,支持基于图像生成3D模型,降低3D建模门槛,在游戏开发领域具有重要应用价值。

苹果推出任务清单训练新方法

苹果研究团队提出基于清单反馈的强化学习(RLCF)方法,用具体任务清单替代人工评分,在FollowBench等测试中性能提升最高达8.2%。

谷歌NotebookLM新增多语言支持

NotebookLM的Video Overviews现已支持80种语言(含简体中文),同时Audio Overviews功能升级,新增生成长度选择功能。

面壁智能发布MiniCPM-V4.5模型

面壁智能与清华大学联合推出MiniCPM-V4.5,以4.1亿参数实现高性能,支持多语言、视频和高分辨率图像处理,可高效部署于边缘设备。

Genspark推出AI Designer设计工具

Genspark最新推出的AI Designer智能体,仅需一条提示即可生成从品牌标志到完整视觉系统的全套设计方案,重新定义AI设计流程。

英伟达发布Jetson Thor机器人平台

英伟达推出Jetson Thor机器人计算平台,采用Blackwell GPU架构,AI算力达2070TFLOPS,较上一代提升7.5倍,配备128GB内存。

Anthropic推出Claude Chrome扩展

Anthropic发布Claude for Chrome研究预览版,向首批1000名Max用户推送邀请,支持Claude直接在浏览器内执行点击、填表等自动化操作。

微软开源VibeVoice超长语音合成模型

微软开源VibeVoice-1.5B文本转语音框架,可生成长达90分钟连续语音,支持4个不同说话人切换,特别适合播客等长篇音频内容制作。


更多大模型咨询及使用教程尽在ALLMHUB