AIGC 周报(2.19~2.25)

60 阅读4分钟

一文带你回顾上周(2.19~2.25)AIGC行业发生的热门事件。

大世界模型 LWM,能处理1M token上下文和1h的YouTube视频

当前的大语言模型在理解现实世界上不易用语言描述的方面存在不足,虽然视频模型可以加深对人类文本知识和物理世界的理解,缓解这一问题,但是由于内存限制、计算复杂性和有限的数据集,给训练带来了挑战。

为了解决这些挑战,来自UC 伯克利的研究者整理了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展训练,将上下文大小从 4K 增加到 1M token。并且提出了 Large World Model(LWM,大世界模型),可以执行语言、图像和视频理解和生成,能回答超过1小时YouTube视频内容。

LWM.jpg

AI语音公司 ElevenLabs 给Sora视频配音

AI语音公司 ElevenLabs 使用AI技术给 Sora 生成的经典视频进行配音,细节满满,效果令人惊叹!

[掘金不方便展示视频,点击文章底部链接查看]

新型处理器LPU,在大语言模型任务上比NVIDIA GPU快10倍

初创公司 Grop 开发出一种机器学习处理器 LPU(语言处理单元),一种新型的端到端处理单元系统。在大语言模型任务上比NVIDIA(英伟达)的GPU快10倍,而且成本仅为前者10%。

[掘金不方便展示视频,点击文章底部链接查看]

大型多视图高斯模型 LGM,生成高分辨率3D对象

在3D对象生成方面,虽然前馈模型可以在几秒钟内生成3D对象,但是其分辨率受到训练期间所需的密集计算的限制。来自北京大学、南洋理工大学 S-Lab 和上海人工智能实验室的研究者提出了大型多视图高斯模型 LGM,可通过图像生成3D对象,实现了5秒内生成3D对象的同时将训练分辨率提高到512。可体验在线DEMO

LGM.jpg

Google 开源大模型系列 Gemma

Google(谷歌)也加入了开源大模型的行列中,发布了一系列最新的开放式大型语言模型 Gemma。此次提供了两种规模的模型:7B 参数模型,针对消费级 GPU 和 TPU 设计,确保高效部署和开发;2B 参数模型则适用于 CPU 和移动设备。虽然规模较小,单在关键基准测试中明显超越了更大的模型,例如Llama-2 7B 和 13B、Mistral 7B。

Gemma.jpg

国内AI大模型公司 月之暗面 完成新一轮超10亿美元融资

AI创业公司 月之暗面 完成新一轮超10亿美元融资,投资方包括红杉中国、小红书、美团等,这是迄今为止国内AI大模型公司单轮最大金额融资。本轮融资后,月之暗面估值已达约25亿美金,成为国内AI公司独角兽。该公司产品有 人工智能助手Kimi等。

Stability AI 发布最新文生图模型 Stable Diffusion 3

Stability AI 发布了其最新也是最强大的文生图模型 Stable Diffusion 3,在多主题提示、图像质量和拼写能力方面的性能得到了极大提高,生成的图像细节拉满。

stable-diffusion-3.png

Google Gemini 文生图功能惹争议,被紧急关闭

Google(谷歌)发布的 Gemini 系列多模态大模型给行业带来了很大的震撼,能力和GPT-4平起平坐。但是文生图功能却有些拉垮,引起了不少的争议,例如拒绝在图像中描述白人的形象。Google 承认了 Gemini 图像生成的问题并道歉,也紧急关闭了文生图功能。

gemini.jpg

NVIDIA 成立AI实验室 GEAR,研究通用具身智能体

英伟达高级科学家Jim Fan透露,英伟达内部组建一个新研究小组 GEAR,进行通用具身智能体研究,以构建出基础智能体:一个具有通用能力的AI,可以在许多虚拟和现实的世界中学习如何熟练地行动。

GEAR.jpg

Tesla 人形机器人擎天柱,走路越来越熟练

Tesla.gif

欢迎大家关注wx公众号,以获取更及时更丰富的内容和更好的体验