AIGC 周报（2.19～2.25）一文带你回顾上周（2.19～2.25）AIGC行业发生的热门事件。大世界模型 LW

一文带你回顾上周（2.19～2.25）AIGC行业发生的热门事件。

大世界模型 LWM，能处理1M token上下文和1h的YouTube视频

当前的大语言模型在理解现实世界上不易用语言描述的方面存在不足，虽然视频模型可以加深对人类文本知识和物理世界的理解，缓解这一问题，但是由于内存限制、计算复杂性和有限的数据集，给训练带来了挑战。

为了解决这些挑战，来自UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集，利用 RingAttention 技术对长序列进行可扩展训练，将上下文大小从 4K 增加到 1M token。并且提出了 Large World Model(LWM，大世界模型)，可以执行语言、图像和视频理解和生成，能回答超过1小时YouTube视频内容。

AI语音公司 ElevenLabs 给Sora视频配音

AI语音公司 ElevenLabs 使用AI技术给 Sora 生成的经典视频进行配音，细节满满，效果令人惊叹！

[掘金不方便展示视频，点击文章底部链接查看]

新型处理器LPU，在大语言模型任务上比NVIDIA GPU快10倍

初创公司 Grop 开发出一种机器学习处理器 LPU(语言处理单元)，一种新型的端到端处理单元系统。在大语言模型任务上比NVIDIA（英伟达）的GPU快10倍，而且成本仅为前者10%。

[掘金不方便展示视频，点击文章底部链接查看]

大型多视图高斯模型 LGM，生成高分辨率3D对象

在3D对象生成方面，虽然前馈模型可以在几秒钟内生成3D对象，但是其分辨率受到训练期间所需的密集计算的限制。来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了大型多视图高斯模型 LGM，可通过图像生成3D对象，实现了5秒内生成3D对象的同时将训练分辨率提高到512。可体验在线DEMO。

Google 开源大模型系列 Gemma

Google（谷歌）也加入了开源大模型的行列中，发布了一系列最新的开放式大型语言模型 Gemma。此次提供了两种规模的模型：7B 参数模型，针对消费级 GPU 和 TPU 设计，确保高效部署和开发；2B 参数模型则适用于 CPU 和移动设备。虽然规模较小，单在关键基准测试中明显超越了更大的模型，例如Llama-2 7B 和 13B、Mistral 7B。