240729-240802 早早聊 AI 资讯｜Black Forest Labs，推出了 FLUX.1；谷歌发布 Gemma 2 2B、ShieldGemma

阅读详细图文，可访问知识库

◇ Stability AI 核心成员 Robin Rombach 创立了 Black Forest Labs，推出了 FLUX.1，质量看起来可与 DALL-E 媲美 🔗 News 🔗 News

FLUX.1 是由 Stable Diffusion 的创建者 Black Forest Labs 开发的新型开源图像生成模型，已在 Replicate 上可用，通过一行代码即可在云端运行，也能在浏览器中试用或用所选语言编程运行。

模型开发者与可用性：由 Black Forest Labs 开发，在 Replicate 上可用，多种运行方式。

运行示例：给出了使用 JavaScript 在 Replicate 上运行的代码示例。

性能优势：在快速跟随、视觉质量、图像细节和输出多样性方面表现一流，能处理复杂文字、构图和手部等。

模型变体：包括 FLUX.1 [pro]、FLUX.1 [dev]、FLUX.1 [schnell]，各自特点不同。

价格：按图像定价，不同版本价格不同。

未来展望：是很棒的模型，将研究微调等功能

◇ 谷歌发布 Gemma 2 2B、ShieldGemma 和 Gemma Scope 🔗 News

谷歌发布的 Gemma 系列模型的相关内容，包括 Gemma 2 2B、ShieldGemma 和 Gemma Scope 三个部分。

Gemma 2 2B 模型：是 Gemma 家族的一员，具有 2.6B 参数版本，适用于设备端使用。与其他模型架构相同，可借助 Transformers 和 llama.cpp 运行，有特定的提示格式，在知识相关和指令遵循任务上表现较好，还可用于辅助生成以提高大型模型的生成速度。

ShieldGemma 模型：一系列基于 Gemma 2 的安全分类器，有多种参数版本，可检测有害请求和响应，有特定的提示模式，可与 Transformers 结合使用，并给出了评估结果。

Gemma Scope 模型：是针对 Gemma 2 2B 和 9B 模型各层训练的稀疏自编码器综合套件，属于一种新的解释技术，可通过 SAELens 运行，相关使用可参考特定教程和报告。

◇ Runway Gen3 模型图生视频上线 🔗 News

今天，我们发布了 Gen-3 Alpha 图像转视频。此更新允许您使用任何图像作为视频生成的第一帧，可以单独使用，也可以使用文本提示进行额外指导。

图像转视频是一项重大更新，它极大地提高了您生成的艺术控制和一致性。请参阅下文了解更多信息。

◇ Runway 训练了 Gen-3 Alpha 的新版本 Turbo，它能够以比原始 Gen-3 Alpha 快 7 倍的速度生成视频 🔗 News

RunwayML 是一家应用人工智能研究公司，致力于通过人工智能推动创造力。他们推出的 Gen-3 Alpha 的新版本 Turbo 代表了视频生成的重大飞跃，它生成视频的速度比原始 Gen-3 Alpha 快 7 倍，同时在许多用例上与其性能相当。我们将在未来几天推出 Turbo for Image to Video，价格大幅降低，同时免费用户也可以使用。Gen-3 Alpha Turbo 重新定义了高保真视频生成的效率边界，开启了近乎实时交互的许多新可能性。。

此外，RunwayML 最近筹集了 1.41 亿美元的资金，反映出投资者对他们对未来创造力的愿景充满信心。这笔资金将支持创新 AI 工具和平台的持续开发，增强他们赋能全球艺术家和创作者的能力

◇ OpenAI 开始向一小部分 ChatGPT Plus 用户推出高级 语音模式 ****🔗 News

ChatGPT 正在向一小部分 ChatGPT Plus 用户逐步推出高级语音模式。此模式提供更自然、实时的对话，允许随时打断，并能感知和回应用户情绪。参与该测试的用户将通过邮件和移动应用内消息获得相关指示，计划在秋季让所有 Plus 用户都能使用。自首次展示该模式以来，一直在加强语音对话的安全和质量，测试了 GPT--4o 的语音能力，还将在 8 月初分享有关 GPT--4o 能力、限制和安全评估的详细报告。

◇ OpenAI 正在推出新的 Admin API — 您现在可以以编程方式管理邀请、用户、项目和服务帐户 🔗 News

OpenAI API 的各种功能和使用方法，包括通过多种语言和库与 API 进行交互、认证方式、组织和项目设置、不同类型的请求（如聊天完成、音频处理、嵌入、微调等）的具体要求和返回结果等。

交互方式：可以通过 HTTP 请求从任何语言与 API 交互，支持官方的 Python 和 Node.js 库以及社区维护的库。

认证与密钥：使用 API 密钥进行认证，可创建用户或服务账户级别的密钥，强调保护 API 密钥的安全性。

组织和项目：介绍了组织和项目的相关设置，包括如何指定组织和项目进行 API 请求。

请求类型：涵盖了聊天完成、音频的生成、转录、翻译，以及嵌入和微调等多种请求类型的详细信息。

参数设置：对各种请求的参数，如频率惩罚、温度、采样方式等进行了说明，并介绍了返回结果的格式和内容。

微调相关：包括创建微调任务、获取微调作业列表、事件、检查点以及检索特定微调作业的方法和相关信息。

◇ 苹果发布了一篇 67 页的论文。详细介绍了他们 AI 系统的全部架构 🔗 News

我们展示了为支持苹果智能功能而开发的基础语言模型，包括一个约 30 亿参数的模型，旨在设备上高效运行，以及一个为私有云计算设计的大型基于服务器的语言模型[苹果，2024b]。这些模型旨在高效、准确和负责任地执行广泛的任务。本报告描述了模型架构、用于训练模型的数据、训练过程、模型如何针对推理进行优化以及评估结果。我们强调了对负责任的人工智能的关注，以及这些原则如何在整个模型开发过程中得到应用。

◇ 小扎对谈黄仁勋： AI 模型不开源，脏话我要骂出来 🔗 News

扎克伯格与黄仁勋的对谈讨论了生成式AI在Meta产品中的应用及带来的变革，如改变内容推荐方式和创作方式等。扎克伯格开源模型Llama 3.1，认为开源能使生态系统受益，虽有自私成分，但相信未来每家公司都会拥有自己的AI。两人还谈及AI Agent，Meta推出AI Studio允许用户构建自定义虚拟角色和Chatbot。此外，他们对智能眼镜充满期待，认为智能眼镜将成为下一代计算平台，虽目前技术有限，但未来会有多种产品满足不同需求。同时，英伟达发布了一系列新动态，如NIMs等软件包，推动企业大规模部署AI模型。总之，两人对下一代计算充满希望，认为生成式AI将带来巨大影响。