上周 AI 动态 开源大语言模型与 SB 1047 法案进展

152 阅读8分钟

随着人工智能技术的飞速发展,每周都有新的突破和进展。上周,我们见证了多个令人振奋的开源大语言模型(LLMs)的发布,以及加州 AI 法案 SB 1047 的最新动态。本文将为您详细梳理这些重要新闻,并探讨它们对未来 AI 发展的影响。

一、新开源大语言模型涌现

Nvidia 发布 Llama-3.1-Minitron 4B

Nvidia 的研究团队开发了一款小型语言模型 Llama-3.1-Minitron 4B,该模型在训练和部署上更加高效,同时性能可与更大模型相媲美。团队采用了剪枝和蒸馏技术来创建这一模型。他们从 Llama 3.1 8B 模型开始,使用 940 亿令牌的数据集进行微调,然后应用深度和宽度剪枝,并使用 NeMo-Aligner 对剪枝后的模型进行微调。最终得到的 Llama-3.1-Minitron 4B 模型在训练数据量仅为其他 SLMs 的一小部分的情况下,表现却非常接近。宽度剪枝版本的模型已在 Hugging Face 上发布,供商业使用。

微软推出 Phi-3.5

微软发布了最新版本的小型语言模型 Phi-3.5,该模型在多个关键指标上超越了谷歌、OpenAI、Mistral 和 Meta 的其他小型模型。Phi-3.5 提供了 38 亿、41.5 亿和 419 亿参数的版本,所有版本均可免费下载并使用本地工具如 Ollama 运行。该模型在推理和数学基准测试中表现出色,超过了 Llama 和 Gemini 等竞争对手。Phi-3.5 还推出了视觉模型版本,可以理解图像,并且还有一种专家模型混合体,通过在不同子网络之间分配学习任务来实现更高效的处理。

AI21 推出 Jamba 模型家族

AI21 宣布推出两款新的开源模型 Jamba 1.5 Mini 和 Jamba 1.5 Large。这些模型基于 Transformer 和 Mamba 架构的混合架构,提供了无与伦比的速度、效率和长上下文语言模型的性能。Jamba 1.5 Large 是一款拥有 3980 亿总参数和 940 亿活跃参数的专家混合模型(MoE),旨在高质量和高效率地处理复杂的推理任务。两款模型都利用了目前开放许可下最大的真实上下文窗口 256K 令牌,并在延迟测试中表现出色。

Abacus.ai 推出 Dracarys 编码模型家族

Abacus.ai 推出了一个新的开源大型语言模型(LLMs)家族 Dracarys,专为编码任务优化。与之前的通用 LLM Smaug-72B 不同,Dracarys 专门设计用于优化编码任务。"Dracarys 配方"已应用于 700 亿参数类别的模型,涉及优化的微调技术,以提高任何开源 LLM 的编码能力。根据 LiveBench 基准测试,Dracarys 调优版本显著提高了现有模型的性能。

二、加州 SB 1047 AI 法案进展

Anthropic 支持 SB 1047 法案

尽管有一些保留意见,但 Anthropic 对加州 AI 法案 SB 1047 的修订版表示支持。CEO Dario Amodei 认为,该法案要求 AI 公司采用并披露安全和安保协议的好处大于其成本。然而,他也指出,该法案可能会不成比例地影响较大的 AI 公司,并可能导致总检察长的过度干预。该法案计划在 8 月 31 日之前在议会进行最终投票。如果通过,将于 9 月 30 日前提交给州长 Gavin Newsom 批准或否决。

前 OpenAI 研究人员质疑 Sam Altman 对 AI 监管的支持

OpenAI 反对旨在实施安全措施以防止 AI 技术造成潜在伤害的加州 AI 法案 SB 1047。这一反对意见引发了前 OpenAI 研究人员 William Saunders 和 Daniel Kokotajlo 的批评,他们认为在没有适当监管的情况下开发高级 AI 模型可能会导致灾难性后果。尽管 OpenAI CEO Sam Altman 公开倡导 AI 监管,但研究人员表示他的支持是表面的,因为当实际监管措施提出时,他持反对态度。OpenAI 的首席战略官 Jason Kwon 认为,AI 监管应在联邦层面实施,以促进创新并建立全球标准,但目前尚不确定该法案是否会通过,或者 OpenAI 提出的修正案是否会纳入。

三、其他重要新闻

OpenAI 与 Condé Nast 合作

OpenAI 宣布与 Condé Nast(Ars Technica 的母公司)合作,在 ChatGPT 和 SearchGPT 等 AI 产品中展示其出版物的内容。这一合作将使这些 AI 服务的用户能够访问 Condé Nast 出版物的信息,并使 OpenAI 能够使用这些内容来训练未来的 AI 语言模型。尽管有这一合作,Condé Nast 的内部政策仍然禁止在其出版物中使用 AI 生成的文本。

谷歌发布强大的 AI 图像生成器 Imagen 3

谷歌发布了强大的 AI 图像生成器 Imagen 3,供美国用户免费使用。该模型性能优于其他模型,并提供高级编辑选项,但也引发了关于训练数据和版权问题的担忧。

OpenAI 推出 GPT-4o 微调功能

OpenAI 推出了 GPT-4o 的微调功能,允许开发者通过自定义模型的响应来提高其应用程序的性能和准确性。

Perplexity 更新代码解释器和图表功能

Perplexity 的最新更新改进了其代码解释器,允许安装库并在结果中显示图表,扩展了其用例。

McAfee 推出 AI 深度伪造检测软件

McAfee 推出了 PC 用的 AI 深度伪造检测软件,利用在近 20 万个视频样本上训练的高级 AI 模型,快速且私密地确定视频是否被操纵,同时保持用户隐私和设备性能。

Waymo 推出最新无人驾驶网约车平台

Waymo 推出了第六代无人驾驶网约车,具有降低的生产成本、增加的续航里程、计算能力和更少的传感器。Waymo 现在每周提供超过 10 万次付费无人驾驶服务,并展示了其下一代网约车平台。

特斯拉招聘工人训练人形机器人

特斯拉正在招聘工人穿着动作捕捉服收集运动信息,以训练其设计用于公司工厂自动化工作的人形机器人。

Perplexity AI 计划在第四季度推出搜索平台广告

Perplexity AI 计划在其 AI 驱动的搜索平台上推出广告,此前已成功完成一轮筹资并与主要出版商建立了合作关系。

中国在机器人博览会上展示人形机器人雄心

中国在世界机器人博览会上展示了其在人形机器人领域的进展和雄心,多家公司展示了由大型语言模型驱动的先进机器人,并旨在在该领域占据主导地位。

四、研究进展

跨体学习扩展

提出了一种可扩展且灵活的基于 Transformer 的策略 CrossFormer,用于训练单一策略以控制各种机器人实体,展示了其在跨体学习中的能力。

音乐推荐中的 Transformer

AI 驱动的音乐推荐系统需要考虑用户偏好和活动的更广泛背景,以提供更准确和有价值的歌曲推荐。

Transfusion:多模态模型预测下一个标记和扩散图像

一种新的多模态模型 Transfusion 结合了语言建模和扩散,训练单一 Transformer 处理混合模态序列,显著优于量化图像和离散图像标记的语言模型训练。

LongVILA:长视频的长上下文视觉语言模型扩展

通过引入 LongVILA,一个完整的长上下文视觉语言模型解决方案,包括系统、模型训练和数据集开发,扩展长视频的长上下文视觉语言模型。

代码在预训练中的影响

在预训练数据中包含代码显著提高了通用语言模型在各种任务上的性能,而不仅仅是编码相关任务。

Transformers 到 SSMs:将二次知识蒸馏到次二次模型

使用一种称为 MOHAWK 的方法,可以将 Transformers 蒸馏成次二次状态空间模型(SSMs),使 SSMs 能够从训练 Transformer 架构中投入的计算资源中受益。

Meta AI 提出‘Imagine yourself’:无需特定用户微调的个性化图像生成模型

个性化图像生成由于其潜在的应用前景而受到关注,但传统方法通常需要对每个用户进行大量调整,限制了效率和可扩展性。

TableBench:表格问答的综合基准

大型语言模型的进步改进了表格数据的处理,导致创建了一个名为 TableBench 的综合基准,以应对在工业场景中应用 LLMs 的挑战。

无需训练的图神经网络及其标签特征的力量

无需训练的图神经网络可以利用标签作为特征,消除了广泛训练的需要。

六、结语

上周的 AI 动态再次展示了该领域的快速发展和多样化。开源大语言模型的涌现和加州 AI 法案的最新进展,不仅展示了技术的进步,也引发了关于 AI 监管和伦理的重要讨论。随着 AI 技术的不断深入应用,未来我们将继续见证更多令人振奋的创新和挑战。

以上是对上周 AI 动态的详细梳理和分析。希望这些信息能为您提供有价值的见解和启发。如果您喜欢这篇文章,请点赞、分享并关注我们的公众号,以获取更多最新的 AI 资讯和深度分析。