「Memene 摸鱼日报 9.3」Gemini 推出 URL Context 功能，蚂蚁集团 AGI 论坛将于9月11日举行

以下内容包括「人工智能生成内容」

Gemini 推出 URL Context 功能，蚂蚁集团 AGI 论坛将于 9月11日举行

👏在昨天（2025.9.2），AI领域有这些内容可能值得你关注：

谷歌 Gemini 推出 URL Context 功能

谷歌近期在 Gemini API 中推出了 URL Context 功能，使 AI 能够直接访问并深度解析网页、PDF 和图像内容。与传统的链接处理方式不同，该功能会完整读取整个文档，理解其结构和数据，而不仅仅是获取摘要或部分文本。 “Gemini 会进行深度、完整的文档解析，理解整个文档的结构、内容和数据。”

这一功能支持多种文件格式，包括 PDF、PNG、JPEG、HTML 等，并能理解表格、图表甚至脚注。开发者只需几行代码即可调用，无需搭建复杂的 RAG（检索增强生成）系统。 Thomas Reid 在 Towards Data Science 上评价其为“RAG 的又一颗棺材钉”，因为 URL Context 大大简化了处理公开网络内容的流程。

在实际测试中，Gemini 仅凭一个指向特斯拉财报 PDF 的 URL，就准确提取了第 4 页表格中的“总资产”和“总负债”数据。它还成功识别了 PDF 末尾被星号标记的离职日期，并解释了脚注中的省略原因。

URL Context 采用两步检索流程：先尝试从缓存获取内容，若无则实时抓取。但其能力也有边界，它无法处理付费墙内容、YouTube 视频等专用 API 覆盖的领域，且单次请求最多处理 20 个 URL，单个 URL 内容上限为 34MB。价格按处理的 Token 数量计费，鼓励开发者高效设计应用。这一功能的推出反映了基础模型正将更多外部能力内置化的趋势，减轻了开发者的数据处理负担。然而，对于需要复杂检索逻辑或处理私有文档的场景，自主搭建 RAG 系统仍是必要选择。

蚂蚁集团 AGI 论坛将于 9 月 11 日在上海世博园举行

蚂蚁集团主办的 AGI 论坛将于 9 月 11 日在上海世博园 C1 馆举行，论坛由中国信通院华东分院承办，智源社区、智东西支持。活动将聚集来自 AI Lab、清华大学、中国人民大学、同济大学等机构的顶级学者，分享 AI 领域的前沿学术成果与产业实践经验。

论坛亮点包括蚂蚁集团“百灵”大模型的智能演进与开源实践成果发布，以及 Diffusion 扩散模型的重要研究成果展示。 “脑洞与落地并重” 是本次活动的核心特色，学者们将探讨 AI 技术如何从实验室走向实际应用。

阶跃星辰发布开源语音大模型 Step－Audio 2 mini，多项性能领先

近日，阶跃星辰正式发布了开源端到端语音大模型 Step－Audio 2 mini 。这款模型在多个国际基准测试中取得了领先成绩，能够将语音理解、音频推理与生成统一建模，在音频理解、语音识别、跨语种翻译等任务中表现突出。 Step－Audio 2 mini 采用了创新的真端到端多模态架构，突破了传统的 ASR（自动语音识别）＋ LLM（大语言模型）＋ TTS（文本转语音）三级结构，实现了从原始音频输入到语音响应输出的直接转换。这种架构不仅更加简洁，还能有效降低时延，并且能够更好地理解副语言信息和非人声信号。

在性能表现方面，该模型在通用多模态音频理解测试集 MMAU 上获得了 73.2 分的开源端到端语音模型最高分。在中英互译任务上， Step－Audio 2 mini 在 CoVoST 2 和 CVSS 评测集上分别取得 39.3 和 29.1 的分数，大幅领先其他开源语音模型。在语音识别任务中，该模型的中文测试集平均字错误率为 3.19％，英语测试集平均词错误率为 3.50％，领先其他开源模型 15％以上。

值得一提的是， Step－Audio 2 mini 还具备链式思维推理（Chain－of－Thought， CoT）与强化学习联合优化能力，能够对情绪、语调、音乐等副语言和非语音信号进行精细理解和推理。模型还支持外部工具调用，如网络检索等功能，这有助于解决模型幻觉问题并扩展多场景应用能力。

目前， Step－Audio 2 mini 已经上线 GitHub、Hugging Face 和 ModelScope 等开源平台，供开发者和研究人员下载使用。阶跃星辰同时还提供了在线体验平台，用户可以通过实时对话功能体验模型的深度聆听和多音色切换能力。

特斯拉发布《宏伟蓝图 4》，将 80% 价值押注机器人

特斯拉正式发布第四份战略规划《宏伟蓝图 4》，首次明确将公司未来价值的 80％押注于人形机器人 Optimus。 “未来，特斯拉约 80％的价值将来自机器人 Optimus” ，马斯克这一表态彻底颠覆了外界对这家电动车制造商的传统认知。规划提出通过“硬件与软件的大规模统一”，实现“可持续富足”的终极目标。

这份长达 17 年酝酿的规划包含五大核心原则：无限增长理论、创新消除限制、技术解决现实问题、自动化造福全人类、普及驱动增长。其中 Optimus 被定位为改变劳动形态的关键产品，能替代人类完成危险或枯燥的工作。与前三版聚焦电动车、能源生态和全球可持续方案相比，第四版实现了从交通工具制造商向人工智能物理世界整合者的范式转变。

规划文件意外曝光了一款 SUV 造型的 Cybertruck 衍生车型，引发网友热议。马斯克此前曾预告这份蓝图“将是史诗般的”，而网友评价 “听起来特斯拉正在重新定义大规模自动驾驶的框架” 。特斯拉将此次转型比作工业革命级别的跃迁，强调虽然执行过程充满挑战，但突破“不可能”正是公司的一贯风格。

从 2006 年首份蓝图的三步走电动车战略，到如今机器人成为核心支柱，特斯拉的进化路径呈现出清晰的技术纵深。最新规划标志着其业务重心正式从“轮式机器人”（汽车）转向通用型人形机器人，这种战略跳跃既延续了自动驾驶技术的积累，也展现出马斯克对人工智能终局的判断。在新能源车市场竞争白热化的背景下，特斯拉正试图通过机器人开辟更具想象力的增长曲线。

👏大家好，这里是 Memene 摸鱼日报，致力于为您带来每日AI领域的资讯八卦，让你在上班摸鱼的同时只需多花那么几分钟便可以快速了解 AI 领域的资讯新闻。

我们是一家位于杭州的AI创业团队。以上是我们还在测试的产品的 Memene 的生成效果内容。因为希望得到社区朋友们的反馈，于是我们来掘金社区发布了我们的 Memene 摸鱼日报专栏。

🥳如果您有什么意见，还请在评论区与我们反馈。我们非常期望能够得到大家的真实反馈。

以上内容基于人工智能前瞻报 Meme 与学AI技术，懂？ Meme 再生成。如果您有兴趣🥰可以点击前边链接查看全部内容。或者来试试订阅。