「Memene 摸鱼日报 9.3」Gemini 推出 URL Context 功能,蚂蚁集团 AGI 论坛将于9月11日举行

99 阅读7分钟

以下内容包括「人工智能生成内容」

Gemini 推出 URL Context 功能,蚂蚁集团 AGI 论坛将于 9月11日 举行

👏在昨天(2025.9.2),AI领域有这些内容可能值得你关注:

谷歌 Gemini 推出 URL Context 功能

谷歌近期在 Gemini API 中推出了 URL Context 功能,使 AI 能够直接访问并深度解析网页、PDF 和图像内容。 与传统的链接处理方式不同,该功能会完整读取整个文档,理解其结构和数据,而不仅仅是获取摘要或部分文本。 “Gemini 会进行深度、完整的文档解析,理解整个文档的结构、内容和数据。”

这一功能支持多种文件格式,包括 PDF、PNG、JPEG、HTML 等,并能理解表格、图表甚至脚注。 开发者只需几行代码即可调用,无需搭建复杂的 RAG(检索增强生成)系统。 Thomas Reid 在 Towards Data Science 上评价其为“RAG 的又一颗棺材钉”,因为 URL Context 大大简化了处理公开网络内容的流程。

在实际测试中,Gemini 仅凭一个指向特斯拉财报 PDF 的 URL,就准确提取了第 4 页表格中的“总资产”和“总负债”数据。它还成功识别了 PDF 末尾被星号标记的离职日期,并解释了脚注中的省略原因。

URL Context 采用两步检索流程:先尝试从缓存获取内容,若无则实时抓取。 但其能力也有边界,它无法处理付费墙内容、YouTube 视频等专用 API 覆盖的领域,且单次请求最多处理 20 个 URL,单个 URL 内容上限为 34MB。 价格按处理的 Token 数量计费,鼓励开发者高效设计应用。 这一功能的推出反映了基础模型正将更多外部能力内置化的趋势,减轻了开发者的数据处理负担。 然而,对于需要复杂检索逻辑或处理私有文档的场景,自主搭建 RAG 系统仍是必要选择。

蚂蚁集团 AGI 论坛将于 9 月 11 日在上海世博园举行

蚂蚁集团主办的 AGI 论坛将于 9 月 11 日在上海世博园 C1 馆举行,论坛由中国信通院华东分院承办,智源社区、智东西支持。活动将聚集来自 AI Lab、清华大学、中国人民大学、同济大学等机构的顶级学者,分享 AI 领域的前沿学术成果与产业实践经验。

论坛亮点包括蚂蚁集团“百灵”大模型的智能演进与开源实践成果发布,以及 Diffusion 扩散模型的重要研究成果展示。 “脑洞与落地并重” 是本次活动的核心特色,学者们将探讨 AI 技术如何从实验室走向实际应用。

阶跃星辰发布开源语音大模型 Step-Audio 2 mini,多项性能领先

近日,阶跃星辰正式发布了开源端到端语音大模型 Step-Audio 2 mini 。这款模型在多个国际基准测试中取得了领先成绩,能够将语音理解、音频推理与生成统一建模,在音频理解、语音识别、跨语种翻译等任务中表现突出。 Step-Audio 2 mini 采用了创新的真端到端多模态架构,突破了传统的 ASR(自动语音识别)+ LLM(大语言模型)+ TTS(文本转语音)三级结构,实现了从原始音频输入到语音响应输出的直接转换。这种架构不仅更加简洁,还能有效降低时延,并且能够更好地理解副语言信息和非人声信号。

在性能表现方面,该模型在通用多模态音频理解测试集 MMAU 上获得了 73.2 分的开源端到端语音模型最高分。在中英互译任务上, Step-Audio 2 mini 在 CoVoST 2 和 CVSS 评测集上分别取得 39.3 和 29.1 的分数,大幅领先其他开源语音模型。在语音识别任务中,该模型的中文测试集平均字错误率为 3.19%,英语测试集平均词错误率为 3.50%,领先其他开源模型 15%以上。

值得一提的是, Step-Audio 2 mini 还具备链式思维推理(Chain-of-Thought, CoT)与强化学习联合优化能力,能够对情绪、语调、音乐等副语言和非语音信号进行精细理解和推理。模型还支持外部工具调用,如网络检索等功能,这有助于解决模型幻觉问题并扩展多场景应用能力。

目前, Step-Audio 2 mini 已经上线 GitHub、Hugging Face 和 ModelScope 等开源平台,供开发者和研究人员下载使用。阶跃星辰同时还提供了在线体验平台,用户可以通过实时对话功能体验模型的深度聆听和多音色切换能力。

特斯拉发布《宏伟蓝图 4》,将 80% 价值押注机器人

特斯拉正式发布第四份战略规划《宏伟蓝图 4》,首次明确将公司未来价值的 80%押注于人形机器人 Optimus。 “未来,特斯拉约 80%的价值将来自机器人 Optimus” ,马斯克这一表态彻底颠覆了外界对这家电动车制造商的传统认知。规划提出通过“硬件与软件的大规模统一”,实现“可持续富足”的终极目标。

这份长达 17 年酝酿的规划包含五大核心原则:无限增长理论、创新消除限制、技术解决现实问题、自动化造福全人类、普及驱动增长。其中 Optimus 被定位为改变劳动形态的关键产品,能替代人类完成危险或枯燥的工作。与前三版聚焦电动车、能源生态和全球可持续方案相比,第四版实现了从交通工具制造商向人工智能物理世界整合者的 范式转变。

规划文件意外曝光了一款 SUV 造型的 Cybertruck 衍生车型,引发网友热议。马斯克此前曾预告这份蓝图“将是史诗般的”,而网友评价 “听起来特斯拉正在重新定义大规模自动驾驶的框架” 。特斯拉将此次转型比作工业革命级别的跃迁,强调虽然执行过程充满挑战,但突破“不可能”正是公司的一贯风格。

从 2006 年首份蓝图的三步走电动车战略,到如今机器人成为核心支柱,特斯拉的进化路径呈现出清晰的技术纵深。最新规划标志着其业务重心正式从“轮式机器人”(汽车)转向通用型人形机器人,这种战略跳跃既延续了自动驾驶技术的积累,也展现出马斯克对人工智能终局的判断。在新能源车市场竞争白热化的背景下,特斯拉正试图通过机器人开辟更具想象力的增长曲线。


👏大家好,这里是 Memene 摸鱼日报,致力于为您带来每日AI领域的资讯八卦,让你在上班摸鱼的同时只需多花那么几分钟便可以快速了解 AI 领域的资讯新闻。

我们是一家位于杭州的AI创业团队。以上是我们还在测试的产品的 Memene 的生成效果内容。因为希望得到社区朋友们的反馈,于是我们来掘金社区发布了我们的 Memene 摸鱼日报专栏。

🥳如果您有什么意见,还请在评论区与我们反馈。我们非常期望能够得到大家的真实反馈

以上内容基于 人工智能前瞻报 Meme 与 学AI技术,懂? Meme 再生成。如果您有兴趣🥰可以点击前边链接查看全部内容。或者来试试订阅