241014-241018 早早聊 AI 资讯｜Mistral 推出 Ministral 3B 和 8B；Suno新功能“Suno Scenes”上线...

阅读详细图文，可访问知识库

◇ Mistral 推出 Ministral 3B 和 8B：全球最佳边缘 AI 模型，专为笔记本和手机优化。 🔗 News

世界上最好的边缘模型 ——Ministral 3B 和 Ministral 8B。这两个模型在 Mistral 7B 发布一周年之际推出，在知识、常识、推理、函数调用和效率等方面开创了新的前沿，适用于多种设备端和边缘计算场景。它们支持长达 128k 的上下文长度，Ministral 8B 还有特殊的交错滑动窗口注意力模式。文中还介绍了其使用场景，包括设备端翻译、无网络智能助手、本地分析和自主机器人等，以及与其他大型语言模型结合使用的情况。此外，文章还展示了这两个模型在多个任务中的性能表现，并给出了预训练模型和指令模型的对比表格和图片。最后，介绍了这两个模型的可用性和价格，以及未来 Mistral AI 将继续推动前沿模型的发展。

◇ Suno新功能“Suno Scenes”上线，移动应用可通过图像和视频生成音乐 🔗 News

Suno Scenes 带来了视频和图像提示功能。通过其移动应用（可在 suno.com/ios 下载），用户可以用喜欢的照片和视频制作独特的歌曲，无论是美丽的风景、有趣的表情包、自然的自拍照还是日常冒险的短视频都可以。下载应用后，在内容中加上标签 #sunoscenes，在 X 上提及相关账号，在 IG 和 TikTok 上提及 @sunomusic。在应用中，该功能位于歌曲创作体验的相机模式下。目前仅在美国的 iPhone 上可用，国际早期访问版即将推出。还可以查看已制作的一些精彩场景的播放列表。

◇ 击败GPT-4o、仅次于o1！英伟达重磅开源超强大模型--Nemotron 🔗 News

英伟达开源的超强大模型 Llama--3.1--Nemotron--70B--Instruct。该模型击败了众多开闭源模型，仅次于 OpenAI 最新模型。其基础模型基于 Llama--3.1--70B，采用新的混合训练方法，将 Bradley--Terry 和 Regression 用于训练奖励模型，并开源了训练数据集。文中还介绍了该模型的开源地址、数据集、在线 demo 等信息，以及混合训练方法的优势和 HELPSTEER2--PREFERENCE 数据集的开发过程和特点。此外，还提到了英伟达开源模型的目的、AI 领域竞争对行业的推动以及模型的使用心得等内容。

◇ OpenAI 推出Windows桌面应用早期版，支持Alt + Space，提供流畅的文件分析、对话搜索和文本生成体验。 🔗 News

OpenAI 向 ChatGPT Plus、Enterprise、Team 和 Edu 用户提供 Windows 桌面应用早期版本，可在微软应用商店下载，通过 Alt + Space 快捷键启用，提供文件分析、搜索对话、文本生成等功能，使用体验丝滑。支持文件上传分析、创意文本生成、图片生成等，使用便捷，可与 Office 等办公软件配合使用，Companion Chat 有特定的使用方法和注意事项。

◇ 智谱开源新一代文生图模型 CogView3-Plus 🔗 News

智谱开源 CogView3 以及 CogView3--Plus--3B。CogView3 是基于级联扩散的 text2img 模型，分三个阶段生成不同分辨率图像，在人工评估中比 SDXL 表现出色且推理时间短。CogView3--Plus 在 CogView3 基础上引入 DiT 框架、Zero--SNR 扩散噪声调度和文本 - 图像联合注意力机制，采用潜在维度为 16 的 VAE 和混合分辨率训练，支持 512 - 2048 像素区间分辨率灵活生成，效果与最领先的 text2img 模型持平。该系列模型的图像编辑功能已上线 “智谱清言”，本次开源了 3B 模型，开源仓库地址及模型仓库地址均有提供，开源规划包括使用 Apache 2.0 协议，9 月 29 日在 ECCV 大会开源模型，10 月 11 日完成 CogView3-Plus-3B 模型的 Diffusers 版本适配，还将搭建微调方案和适配 ControlNet。

◇ AI 翻译界杀手诞生！阿里国际翻译 大模型 吊打谷歌和 GPT-4 ****🔗 News

阿里国际发布的首个商用翻译大模型 Marco--MT。当前 AI 翻译赛道竞争激烈，但现有产品存在诸多问题，如文化鸿沟导致的翻译不准确、训练数据局限性、上下文理解有限等。Marco--MT 在广义翻译领域表现亮眼，结合上下语义、场景、对象等提供精准翻译，在电商领域尤其出色，支持三种翻译方式，能处理电商专有词、流行词和口语词等翻译任务，且价格具有性价比，覆盖多种语言，可应用于内容本地化和个人文档翻译等场景。其背后采用了多项创新性技术，包括多语言增强训练、多语言数据筛选、SFT 微调等。阿里国际做翻译大模型旨在走 AI 应用落地之路，为跨境电商提供解决方案，未来还将持续投入以扩展语向数量、提升翻译质量和降低使用成本。

◇ Anthropic CEO 发布万字长文，预测 强人工智能 的积极未来。🔗 News

Anthropic CEO Dario Amodei 在 Claude opus 3.5 发布前写了一篇长文，介绍未来强人工智能对人类的积极影响。文中定义了强人工智能，阐述了其可能在五个核心方面对人类的积极作用，还讨论了强人工智能的特点、可能的互补和限制因素，以及对不同领域的影响，包括生物学、神经科学、经济发展、和平与治理、工作和人生意义等。同时，作者也提到了对强人工智能出现时间的预测和一些思考

◇Twitter最近更新的用户条款显示，他们会利用用户数据训练模型。但其实大家都用，老马明着说这件事也挺离谱的。 🔗 News

互联网上可供艺术家分享创作且不用担心作品被用于训练生成式人工智能模型的地方越来越少。Twitter/X 更新服务条款，用户发布内容即自动授予平台广泛许可，包括用于训练其机器学习和人工智能模型，以及将内容提供给其他方。此前用户可选择退出，但新条款下无论选择如何，艺术创作和文本仍可能用于 AI 训练。同时还提到了一些软件相关内容及其他游戏和动画消息、参考图片 / 纹理和画笔集等。

◇ OpenAI 首席执行官 Sam Altman 讨论生成式人工智能的未来 🔗 News****

OpenAI CEO Sam Altman 在密歇根大学与 Dan fader 进行炉边谈话，探讨了生成式 AI 的未来。内容涵盖新模型 “Strawberry” 的特点与意义、AGI 定义、AI 对社会的影响、年轻创业者机遇、AI 安全与信任问题，还包括低资源语言纳入模型、能源对商业和安全的影响、AI 对教育系统的作用、OpenAI 风险管理、AI 幻觉问题、成为 AI 产品经理所需技能、计算机专业学生职业担忧、训练数据来源以及 AI 的伦理和监管困境等多方面问题。

◇4090笔记本0.37秒直出大片！英伟达联手MIT清华祭出Sana架构，速度秒杀FLUX 🔗 News

英伟达联合 MIT 清华全华人团队提出 Sana 架构，可实现快速高质量的图像生成。一台 16GB 的 4090 笔记本仅需 0.37 秒就能生成 1024×1024 像素图片，最高能实现 4k 分辨率。其核心设计包括深度压缩自编码器、线性 DiT、基于仅解码器模型的文本编码器和高效的训练和采样。相较于领先扩散模型，Sana 参数小且吞吐量飙升。在模型架构细节上，新自编码器可将图像压缩 32 倍，线性 DiT 降低计算复杂度，文本编码器使用 Gemma 增强提示词理解能力，还提出了高效训练和推理策略以及终端设备部署方案。作者包括 Enze Xie、Junsong Chen 和 Song Han 等。

获取更多全球最新 AI 动态、AI 提效工具，知识题，加入早早聊 AI 资讯圈，访问 原文链接 加群备注「资讯」...