最近 AI 发展动态 - GPT-4o Mini、Llama 3.1 和 SmoLLM 等一、OpenAI 发布 GPT

一、OpenAI 发布 GPT-4o Mini

OpenAI 发布了新的小型 AI 模型——GPT-4o Mini。该模型比前代产品更小、更快且成本效益更高。GPT-4o Mini 在文本和视觉推理任务上表现出色，适用于开发者和消费者。其性能超过了其他小型模型，如 Gemini 1.5 Flash 和 Claude 3 Haiku，并且运行成本比 GPT-3.5 Turbo 降低了 60%以上。企业用户可以通过新工具实现合规性要求。

二、Meta 发布 Llama 3.1

Meta 推出了开源的最大 AI 模型——Llama 3.1。该模型拥有 4050 亿参数，使用超过 16000 个 Nvidia H100 GPU 进行训练，开发成本数百万美元。Llama 3.1 性能超过了顶级私有模型，如 GPT-4o 和 Claude 3.5 Sonnet，并具有高性价比。Meta 通过开源许可证发布 Llama 3.1，希望能像 Linux 一样成功，促进开发者定制和部署。Meta 预计开源 AI 将引领未来的发展。

三、Hugging Face 推出 SmoLLM

Hugging Face 推出了新系列的小型语言模型——SmoLLM，包括 130M、350M 和 1.7B 参数版本。SmoLLM 设计用于本地设备，减少对云资源和能源的依赖，提升数据隐私和成本效益。该系列模型在各自参数范围内表现优于现有模型，强调 Hugging Face 对透明性和开源资源的承诺。

四、YouTube 数据用于 AI 训练

证据显示，包括苹果、Anthropic、Nvidia 和 Salesforce 在内的大型科技公司在未经许可的情况下，使用了包含超过 17 万个 YouTube 视频字幕的数据集进行 AI 系统训练。这种行为引发了伦理和法律问题，特别是违反了 YouTube 服务条款。尽管如此，公司仍未具体说明其数据来源，此事件突显了 AI 训练数据使用中的透明度问题。

五、其他 AI 新闻

工具更新
- OpenAI 发布了新的 Sora 视频，展示了模型的强大功能。
- Mistral AI 和 NVIDIA 推出了企业 AI 模型 Mistral NeMo 12B，具有高度准确性和灵活性。
- Anthropic 发布了 Claude 安卓应用，增强了 AI 聊天机器人的可访问性。
- Mistral 发布了 Codestral Mamba，以提高程序员的效率和速度。
- Helm.ai 推出了 VidGen-1 视频生成模型，用于自动驾驶车辆和机器人。
- Haiper 1.5 挑战 Sora 和 Runway，推出更长视频片段和图像生成功能。
- 谷歌开源了 Project Oscar 平台，帮助软件团队监控问题。
- Salesforce 推出了 Einstein Service Agent，为客户提供 AI 自助服务。
- 微软的 Designer 应用现在在 iOS 和 Android 上可用，提供 AI 编辑和创建功能。
- Spotify 推出了西班牙语版 AI DJ 功能，为用户提供个性化音乐推荐。
- 谷歌推出了 Vids 生产力应用，用于创建 AI 生成的视频演示。
商业动态

台积电二季度收入大幅增长，超出市场预期，主要受 AI 应用需求推动。
谷歌和微软向中国公司提供 Nvidia 的 AI 芯片，通过位于中国以外的数据中心服务。
OpenAI 正与 Broadcom 等芯片设计公司谈判，开发新的 AI 服务器芯片。
前 Tesla 和 OpenAI 的 AI 主管 Andrej Karpathy 推出 Eureka Labs，旨在应用 AI 助手于教育领域。
富士通与 Cohere 合作，为日本企业开发安全的生成式 AI 解决方案。
Menlo Ventures 和 Anthropic 联手成立 1 亿美元的 AI 基金，支持 AI 初创公司。
顶级科技公司组成联盟，制定 AI 安全标准，确保网络安全。
迪士尼音乐集团与 AudioShake 合作，利用 AI 分离经典歌曲的音轨和歌词转录。
软银收购英国 AI 芯片制造商 Graphcore，交易条款未公开。
三星将推出升级版的 Bixby 语音助手，集成自有 AI 模型。

研究进展

DeepMind 推出了 PEER 架构，将 MoE 模型扩展到数百万专家，提高了大型语言模型的性能。
Qwen2 技术报告介绍了最新的大型语言和多模态模型，在多种基准测试中表现出色。
OpenAI 正在秘密开发名为 Project Strawberry 的新推理技术，旨在使 AI 模型进行自主研究。
Datadog 开发了 Toto 模型，成为时间序列预测的新基准。
SpreadsheetLLM 提出了高效编码方法 SheetCompressor，提升了电子表格任务的性能。
MambaVision 提出了一种新的混合视觉主干网络，在图像分类任务中表现优异。
Husky 是一种统一的开源语言代理，在解决复杂推理问题上优于现有模型。
LMMS-EVAL 引入了一个统一的多模态基准框架，解决了大规模多模态模型评估的挑战。
Transformer 层作为画家，研究了通过重组预训练 Transformer 层中的信息提高模型使用效率的方法。
Magpie 提出了一种从对齐的大型语言模型中提取高质量指令数据的方法。
GraphFM 是一种多图预训练的可扩展框架，但具体细节尚未公开。

担忧和政策
- 英国监管机构调查微软雇佣 AI 初创公司创始人及其关键员工的行为，担忧可能引发市场竞争问题。
- AI 自主武器进入战场，引发了对其潜在威胁的担忧。
- 骗子利用普通人的股票视频和照片进行加密货币交易所的身份验证欺诈。
- 特朗普的盟友起草了一项 AI 行政命令，旨在为国防领域启动类似于曼哈顿计划的大型项目。
- Meta 效仿苹果，限制其即将发布的 AI 模型在欧盟国家的发布，以应对欧盟的严格法规。

结语

总的来说，最近在 AI 领域的进展迅速而广泛。无论是新模型的发布、开源资源的推出，还是在商业和政策方面的动向，都表明 AI 正在以更快的速度和更广泛的应用影响我们的生活和工作。科技公司之间的竞争与合作，以及对数据使用和安全的持续关注，将继续塑造未来 AI 的发展路径。