下一代游戏范式强势来袭!Oasis,世界首个能实时运行并能与用户互动的视频模型

45 阅读39分钟

本文由readlecture.cn转录总结。ReadLecture专注于音、视频转录、总结和翻译,2小时视频,5分钟阅读,加速内容学习与传播

视频来源

www.youtube.com/watch?v=Gue…

Image

大纲

Image

总结

一句话总结

  • Decart 正在开创实时互动的 AI 体验,旨在通过生成式 AI 改变用户与数字内容的互动方式,弥合想象与视觉现实之间的差距。

要点

  1. 实时互动视频:Oasis 是首个实时运行的视频模型,允许对用户操作进行互动响应,无需传统游戏引擎。
  2. 生成式 AI 潜力:该技术使用户能够实时操控数字环境,预示着沉浸式体验的新时代。
  3. 垂直整合:Decart 完全垂直整合,从 CUDA 内核到模型训练全方位优化,旨在比竞争对手领先 10 倍。
  4. 体验的未来:公司设想未来 AI 生成的体验(GX)将取代传统用户体验(UX),影响从社交媒体到娱乐的各个领域。
  5. AI 训练中的挑战:实现实时视频处理需要系统级优化和模型架构调整。
  6. 市场时机:Decart 相信通过创新技术率先进入市场,利用垂直整合超越竞争对手。
  7. 长期愿景:Decart 旨在创建一个平台,使用户能够生成新体验,可能引领下一个万亿美元公司。

深入问答

  1. Oasis 在 AI 领域的独特之处是什么?
    • Oasis 独特之处在于它是首个实时运行的视频模型,允许对用户操作进行互动响应,无需传统游戏引擎。
  2. Decart 计划如何与竞争对手区分开来?
    • Decart 通过完全垂直整合,从低级 CUDA 内核到高级模型设计和训练全方位优化,实现差异化。
  3. 实现实时视频处理的技术挑战是什么?
    • 挑战包括以不同方式训练模型、进行架构调整,以及进行系统级优化,如编写自定义 CUDA 内核。
  4. Decart 如何看待用户体验的未来?
    • Decart 相信 AI 生成的体验(GX)将取代传统用户体验(UX),创造更沉浸和互动的数字环境。
  5. 垂直整合对 Decart 的意义是什么?
    • 垂直整合使 Decart 能够更快地行动并实现实时性能,在竞争对手之前将创新技术推向市场,获得显著优势。
  6. Decart 的技术在游戏之外有哪些潜在应用?
    • 潜在应用包括下一代社交媒体平台、互动教育工具以及各行业的先进模拟器。
  7. Decart 计划如何解决 AI 训练中的可靠性问题?
    • Decart 通过优化端到端系统来解决可靠性问题,包括构建自定义分布式文件系统并处理内部 200 页文档中记录的各种边缘情况。

关键词标签

  • 生成式 AI
  • 实时视频处理
  • 垂直整合
  • 互动体验
  • AI 生成内容

目标受众

  1. 科技爱好者:对 AI 和实时视频处理最新进展感兴趣的人。
  2. 游戏开发者:寻找新工具和技术以创建互动游戏体验的专业人士。
  3. AI 研究人员:研究 AI 与人机交互交叉领域的学者和专业人士。
  4. 投资者:希望投资于专注于垂直整合和实时性能的创新科技公司的投资者。
  5. 企业家:对用户体验未来和 AI 生成内容潜力感兴趣的创始人及企业领袖。

术语解释

  1. CUDA 内核:针对 NVIDIA GPU 优化的低级编程结构,用于高性能计算任务。
  2. 垂直整合:公司控制或拥有从原材料到最终产品的生产或服务所有阶段的一种策略。
  3. 生成式 AI:能够根据从数据中学习到的模式创建新内容(如文本、图像或视频)的 AI 系统。
  4. 实时推理:在数据输入时实时从机器学习模型中进行预测或决策的过程。
  5. 网络效应:随着更多人使用产品或服务,其价值增加的现象,通常导致快速采用和市场主导地位。

内容回顾

Image

Dean Leitersdorf: 所以,我们几周前推出了Oasis,从技术角度来看,令人难以置信的是它是第一个能够实时运行并允许对用户操作进行互动响应的视频模型。 你可以在世界中移动,打破方块,放置方块等等。我们没有使用游戏引擎就做出了这个不错的游戏,但这并不是最有趣的部分。真正有趣的是思考Oasis 3。 想象一下,暂时抛开技术,你面对着一面镜子。你有一面神奇的镜子,你可以和它说话,让它做很酷的事情。例如,你可以说:“嘿,这是我的手,我想握住一把剑。”然后你看着镜子里的自己,砰,你的手上就出现了一把剑。你移动手,剑也会移动。你可以命令:“让剑变大”或“让它变蓝”,它就会改变。你甚至可以说:“把我变成《权力的游戏》”,然后你周围的一切都变成了《权力的游戏》,你得到了一顶王冠。你可以命令:“不要让我的王冠有任何变化”,然后你开始跳跃和移动,镜子会做出响应。这很有趣,因为它是一种与我们在地球上以前所经历的完全不同的体验。 它让我们能够通过我们能看到的屏幕,将我们脑海中的想象与我们的视觉连接起来。这就是我们在这个方向上的目标。 一句话来说,生成式AI如何真正让我们将想象力与我们在屏幕上看到的内容连接起来?通过这种方式,我们可以探索以前无法进入的世界,从我们今天无法实现的应用程序到我们与计算机的互动方式,一切都发生了改变。

Image

Shaun Maguire: 大家好,我是红杉资本的合伙人Shaun Maguire。今天,我的合伙人Sonya Huang和我将采访Dean Leitersdorf。 Dean是一位才华横溢的年轻人,他在以色列和美国之间来回成长。他在23岁时成为以色列理工学院最年轻的博士,至少直到他的弟弟在21岁时获得博士学位并超越他。Decart正在努力提供令人愉悦的AI体验,真正让人们以前所未有的方式与自己的想象力和其他人的想象力互动。 为此,他们完全垂直整合,从CUDA内核等底层优化到设计自己的模型、训练模型,最终提供体验。在接下来的几个月里,我们将看到一些非常令人印象深刻的发布。

Image

Sonya Huang: Dean,感谢您今天加入我们。我今天早上刚玩了Oasis,玩得非常开心。让我先问一下:Oasis是一个完全可玩的AI游戏引擎。它是什么,以及您为什么要创建它?

Dean Leitersdorf: 我们几周前推出了Oasis,从技术角度来看,令人难以置信的是这是第一个能够实时运行并根据用户操作进行交互的视频模型。 你可以在这个世界中移动、打破方块、放置方块等等。我们实现了这一点,而没有使用游戏引擎,但这并不是最有趣的部分。

要理解为什么这实际上很有趣,请忘记Oasis 1,转而思考Oasis 3。想象一下,暂时抛开技术,你正在看一面镜子。你有一面神奇的镜子,你可以和它说话,告诉它做很酷的事情。例如,你可以说:“嘿,这是我的手,我想握住一把剑。”然后,你看着镜子里的自己,砰,你的手上出现了一把剑。你移动手,剑也会随之移动。你可以命令:“让剑变大,让它变蓝。”它就会改变。你甚至可以说:“把我变成《权力的游戏》。”然后你周围的一切都变成了《权力的游戏》,一顶王冠出现,如果你不喜欢,你可以改变它。你开始跳跃和移动,镜子也会相应地做出反应。

这很有趣,因为它是一种与我们之前所经历的完全不同的体验。 它让我们能够通过屏幕将我们的想象力转化为现实,将我们脑海中看到的与眼睛所见连接起来。这就是我们在这方面的发展方向。简而言之,生成式AI如何真正让我们将想象力与屏幕上看到的内容连接起来?通过这种方式,我们可以探索新世界,并改变从我们今天无法做到的应用程序到我们与计算机互动方式的一切,在硬件方面。

Image

Sonya Huang: 我喜欢镜子的概念。让我们进一步探讨——你打算用它做什么?这是一个社交媒体项目,还是在开发一个游戏,甚至是构建一个世界?你知道,一个世界模型,一个互动世界模型。我应该如何理解Decart是什么,Oasis是什么?

Dean Leitersdorf: 所以让我问你。ChatGPT解决了什么问题?

Sonya Huang:  作业。

Shaun Maguire: 它还使与计算机的交流变得更加容易。

Dean Leitersdorf: 不错,Shaun知道答案。

Shaun Maguire: 因为,Shaun,我和你一起度过了很多时间。典型的Shaun。 我和你一起度过了很多时间。

Image

Dean Leitersdorf: 与你共度的时光,但正是TLDR是ChatGPT,但它并没有解决任何特定的问题。它帮助你更好地完成作业,帮助你写邮件,帮助你总结。现在,它并没有解决一个问题;它克服了一些根本性的限制,这正是Shaun所说的。 它克服了人类和计算机之间的沟通障碍。计算机使用结构化语言,而人类使用非结构化语言或具有复杂结构的语言。大型语言模型(LLMs)只是弥合了这一差距,让计算机和机器能够用我们都能理解的语言进行交互。一旦你有了这个,你就会在上面解决上百个不同的问题。

所以,通过镜子或生成式互动视频,你得到的不仅仅是通过文本克服沟通障碍,还有我们能看到的东西。现在,计算机将能够以我们看待世界的方式看待世界,并且能够以我们能理解的方式向我们展示世界。如果你解决了这个问题,你就为自己提供了一个平台,允许你在其上构建一切,从下一代Snapchat或TikTok到战斗机飞行员的模拟器。好吧,这就是这里很酷的地方。而且,如果你知道我们现在是2024年。我认为我们在车里最有趣的事情之一是,当你有机会建立一个不解决问题而是克服限制的公司时。

99%的公司解决问题。当你看到那些向红杉或其他风投公司推销的公司时,他们首先会说,这是一个问题,这个问题有多大,这是她的Tam和一切,以及你将如何解决问题。通常,前两个保持不变,否则你会称之为转型。对吧?你说,这是我要解决的问题。如果你改变了你要解决的问题,你称之为转型。你500次,你改变了你要解决的方式。这是99%的公司,这也是我们在任何常规年份都能做的事情。历史上有些时刻,最近可能是每十年一次,也许15年一次,你实际上有机会建立一些不解决问题而是克服限制的东西。

让我换个方式问你这个问题:Mac是消费品还是企业级产品,它是硬件公司还是软件公司?

Image

Shaun Maguire: 它解决了什么问题?如果你试图列出个人计算机解决的问题,你会涵盖从游戏到Excel的所有内容。这是一个很棒的方面——你正在构建一项令人难以置信的技术,你将能够以如此多的不同方式将其产品化。

Sonya Huang: 是的,我喜欢这一点。你构建的东西中,据我所知,没有游戏引擎。你怎么看这一点?你认为游戏引擎是一种遗留物吗?

Dean Leitersdorf: 过去,游戏引擎的设计目的是让一个人能够创造一个世界,而另一个人能够与之互动。 这就是游戏引擎的用途:你有游戏开发者,还有与游戏互动的用户。这个概念也可以延伸到电影或其他使用游戏引擎的领域。例如,虚幻引擎在最近的电影中被广泛使用。这是一个非常有价值的产品,具有许多优势,例如一个一致且准确的世界。 然而,与之互动确实需要花费大量时间。人们通常会拿基本的游戏并将其修改成各种形式。当我们探索这一点时,我们看到了人们实际上如何使用这些修改。例如,有一个实际的模组将《宝可梦》放入《我的世界》中,让你可以在森林中行走并遇到宝可梦。这表明人们自然地希望修改平台以适应他们的愿望。 模组是一个很好的功能,因为有了运行你的游戏或环境的AI,你可以以我们习惯与AI互动的方式与之互动。你可以说,“你能把这个变成一个以艾莎为主题的环境吗?” 然后一切都会相应地转变。你也可以添加一只飞象,它不仅会作为静态图像存在,你还可以与之互动——你可以打飞象,它会反击你。我相信,如果这种趋势要取代游戏引擎,它需要达到一个人可以通过编程构建世界,另一个人可以与之互动的状态。 这肯定会到来,并且编程会变得容易得多。你可以使用文字而不是编写代码,即使你知道如何编写代码,你也可以更快地迭代。总而言之,这将使我们能够更快地进行模组,并创造更多互动的体验。

Image

Shaun Maguire: 暂时从更技术的角度来看,你是第一个我见过的提供实时推理的视频模型。 实现实时推理涉及哪些关键要素?它有多大的挑战性,你能提供一些关于使其成为可能的组件的见解吗?

Dean Leitersdorf: 大约三四个月前,也就是夏天的时候,我不记得这是在哪里发布的,但有几个头条新闻是关于最新芯片何时发布。具体来说,就是NVIDIA的最新芯片何时发布,我们将实现实时视频处理。 当时,Hopper和H100芯片都无法处理;我们必须等待NVIDIA的下一代芯片。我相信我是从多个来源听到这个消息的。夏天的时候,大约有两周的时间,不知为何大家都这么说。然而,事实证明H100确实可以处理。

要实现这一点,你需要同时做两件事:你需要对模型本身进行重大改动。并非每个视频模型都能实时运行;你需要以不同的方式训练模型,架构也需要有所不同。 这不是一个重大的架构变化,但确实需要进行调整。另一方面,你还需要做大量的系统级工作。你实际上必须编写自己的CUDA内核,抛弃PyTorch的垃圾收集器,并从头重写一半的内容。你真的需要在系统级别处理所有事情才能实现这一点。

如果你只做这两件事中的一件,你将等待别人完成另一半。如果你只专注于系统级部分,你将无法实现这一点,因为你没有准备好适合这种交互的模型。 如果你只专注于建模部分,你将没有所需的系统级支持来使其实时运行。

Image

Sonya Huang: 你能简要解释一下这个模型是如何工作的吗?它是基于Transformer的吗?它和Sora这样的模型相似吗?

Dean Leitersdorf: 在模型方面,简而言之,它和Sora这样的模型完全一样。不同之处在于,提示是用户操作而不是文本。 最简单的理解方式是把它想象成一个文本到视频的模型。使用Sora时,你输入一个句子并得到一个视频。在这里,你输入的是键盘操作和过去的帧。然后它生成下一帧。

Sonya Huang: 那么,你是如何获取操作之间的数据的呢?

Dean Leitersdorf: 是的,对于视频,你确实需要在这里执行一些预处理步骤,这些步骤在常规视频模型中是不需要的。例如,你需要获取游戏玩法的原始录音,并为每个步骤标记所采取的动作。我们训练了一个小型模型来完成这项工作;它不需要太多数据,因为你可以通过一个不需要很多示例的小型模型来解决这个问题。因此,我们的团队可以稍微玩一会儿,录制下来,然后你就得到了一个小型模型,你可以用它来标记所有数据。

Sonya Huang: 非常有趣。你们是在构建一个世界模型,还是这纯粹是基于像素的?

Image

Dean Leitersdorf: 不错。所以,这里的美妙之处在于它纯粹是像素表示。 现在,让我们将其与你提到的世界模型或3D内容和AI进行比较。十多年来,一直有一个普遍的问题:你是从头到尾解决问题,还是采用现有的工作流程并使其更高效。

好吧,就像有两种方法可以解决这个问题。你可以直接说,嘿,游戏引擎存在——Unity很棒,Unreal也很棒——让我们直接接入那个工作流程。好吧,让我们构建文本到3D。所以我会描述一头大象,然后我会给你一个大象的3D网格,并将其嵌入到Unity和Unreal或你使用的任何游戏引擎中。

好吧,所以将其与端到端解决方案进行比较。最终,我有一个屏幕,屏幕需要显示某些内容,并且需要正常工作。好吧,最终人们所做的是他们看到他们的电脑屏幕,他们触摸键盘,他们移动鼠标,这就是你的界面。你从头到尾解决这个问题,从按键到帧。

显然,这两种方法是竞争方向。现在,随着时间的推移,我认为它们之间会有一些融合,因为从技术角度来看,它们各自都有自己的优势。第一种方法在时间上更加一致。更容易说,哦,这里有一个对象,这里是它的样子,两个小时后它看起来完全一样。而另一种方法,端到端像素融合版本,在像素空间中处理像素,这种方法更加灵活。你可以说,哦,不,改变大象的尾巴,它太大了,或者你可以以更动态的方式实时编辑它。

所以,我认为从长远来看,这两种方法会融合。如果我们大致描绘一下,今天我们真的只是从提示到像素,就像从按键到像素。理论上,你可以说解决这个问题的正确方法,比如说接下来的两三年,是拥有两个模型。你有一个模型在思考——Transformer,对吧?Transformer已经——你有一个模型负责持有游戏的一些状态,这与像素无关。它就像一个LLM式的Transformer。好吧,它只是获取当前状态,获取新用户的动作,并输出对该状态的更改,是的。你有一个模型在做这个,然后第二个模型获取该状态并将其渲染到像素。所以这大致是我们会融合的地方,因为这将真正考虑到世界模型和像素表示的优势。

Image

Sonya Huang: 你知道融合模型的优势吗?

Dean Leitersdorf: 想同时构建这两种模型吗?当然,我是说,是的。

Shaun Maguire: 当然,我很喜欢。

Dean Leitersdorf: 对我来说,我们有点偏离了。这需要一些时间。

Shaun Maguire: 是时候达到那个阶段了,是的。Dean和Decart真正引起我注意的是他们完全垂直整合的雄心。这些人非常了解,从字面上讲,从电子到逻辑门中它们的移动方式。他们甚至深入研究了替代逻辑门以及如何在甚至低于汇编的层次上表示它们。他们知道如何操作,例如,在汇编中CUDA内核。他们从电子到你在屏幕上看到的像素表示,优化了中间的每一个层次。我相信通过这样做,他们将始终比仅在应用层工作的任何人拥有10倍以上的优势。

Sonya Huang: 那么,我们来谈谈这个,因为Shaun喜欢讨论这个。反驳的观点可能是专业化,对吧?有10,000个非常聪明的人在Nvidia或其他任何你喜欢的公司工作。你应该专注于构建最佳的用户体验和病毒循环之类的东西。所以,谈谈你决定垂直整合的原因。

Shaun Maguire: 让我来说点什么,因为Dean不能像我们这样自夸。我一生都在研究商业模式,这是我从小就有的热情。对我自己来说,Google是有史以来最令人惊叹的公司之一,拥有最令人惊叹的商业模式。我在Google工作了几年,我真的觉得人们对Google的OTE价值有错误的理解。我也认为人们有对Nvidia的误解。

今天,对我来说,显然Sergey和Larry发明了PageRank,这是一个非常漂亮的算法。它是一个深刻的见解,但实现起来非常简单,是一个基本的图论概念。它是一篇发表的论文,所以一旦PageRank问世,每个人都很快复制了它。对我来说,Google真正的优势在于这些人是世界上最好的分布式系统和底层系统优化专家。他们从早期就有一个深刻的见解,基本上所有其他搜索引擎都在购买Sun Microsystems的服务器机架。他们通过购买昂贵的硬件来获得容错能力,而Google意识到他们可以购买只是便宜的消费级商品硬件,这些硬件总是会出故障。你知道,你购买的是你游戏电脑中的Intel Pentium处理器或Sandisk内存,你需要五倍的总FLOPS或五倍的比特数来获得相同的性能,因为所有的故障率,但每FLOP的成本是1/150,所以你可以通过真正深入分布式系统并充分利用硬件来获得10倍的成本优化,10倍的成本优势。

对我来说,当我回顾我第一次使用Google时,它的前端非常简单。它实际上只是一个带有搜索框的白色网页。我认为当时它的前端比Yahoo更差。Yahoo还有聊天室和其他更闪亮、更令人兴奋的东西,但Google有一个神奇的后端。对我来说,Google的所有魔力都在后端,我认为后端性能来自于这种成本优势,并且来自于他们一直优化到裸金属的事实。Dean和Dart的故事对我来说真的很共鸣。我们需要谦虚;这家公司还没有做任何事情。我们需要知道,在他们值得与Google相提并论之前还有很长的路要走。而且,你知道,led the Series A,在Google的A轮融资中共同领导,我为此感到非常自豪,也在Nvidia的种子轮中领导,所以我们有很好的历史,很好的记录,在A轮和Apple中也有很好的记录。但商业广告结束了。无论如何,我认为要真正提供这些令人愉悦的体验,比如一个非常简单的前端,我认为你需要一个绝对疯狂的后端,这个后端优化到了裸金属,我认为这是全有或全无的。如果你不能实时交付,我认为它不是很好,我认为你不能在明年不深入到底层的情况下实时交付。所以,我只是不知道,对我来说,我认为你必须这样做,而这些人是我见过的唯一能做到的。

Image

Dean Leitersdorf: 说得好,我很喜欢Shaun刚才提到的内容。 有两个点特别引起了我的注意。第一个是关于垂直整合的,我们稍后会讨论。这与你的原始问题有关。第二个点是,我最近与谷歌的一位高层管理人员进行了交谈。我们回忆过去,试图理解当时的背景,因为谷歌成立时我才三个月大。所以,虽然我当时没有直接参与,但我对那些事件有所了解。

Image

Shaun Maguire:真的在关注并了解你,迪恩,你可能一直在关注。

Image

Dean Leitersdorf: 注意,你知道,我一直在试图理解那里到底发生了什么,比如为什么那件事很有趣。 这来自于一个不相关的对话,那个人提到的方式是关于GPU集群在今天普遍不可靠的问题。如果你试图在我们训练的模型上使用任何集群,无论是超大规模计算还是GPU云,它都会每隔几个小时崩溃一次。你会遇到一个节点崩溃,因为另外两个节点之间的电缆上有灰尘,而且不会有任何错误信息真正告诉你发生了什么。所以你的训练运行会崩溃,你会尝试重启它,但不会成功。然后你会尝试随机移除节点,直到你明白发生了什么。这就是整个行业的现状。几乎只有Google和OpenAI可能没有遇到这种情况,因为他们真的从硬件层面构建了一切。OpenAI有大量时间专注于这些可靠性问题,但其他任何人,从大公司到小初创公司,都在经历这些。

所以我正在和谷歌的一位高层人士交谈,他们说:“嘿,今天的训练就像90年代的CPU一样。忘记Kubernetes吧,那时候没有VMware。什么都是不可靠的,你的服务器会一直崩溃。大多数公司不想处理这些,所以他们要么支付更好的服务费用,这样他们不仅支付了更多的钱,还支付了时间。在稳定的硬件出现之前,损坏的硬件就已经存在了。我们将在一两年内实现稳定的训练运行。Nvidia将使他们的芯片更稳定,他们的代码更稳定,GPU云也会解决这些问题。但今天还不是这样。如果你想今天训练一个模型,你将面临所有这些问题。”

你必须处理的一个真正挑战是,在Decart,我们只是处理了它。我们能做到的原因是,你看到的模型,Oasis,Oasis One,可以在20小时内从头到尾收敛。 与其他AI实验室相比,他们都对此感到震惊。他们谈论最好的实验室训练扩散模型,通常需要两周时间收敛。这不仅仅是因为他们没有使用优化的系统层,还因为他们每隔几小时或几天就会崩溃。我们实际上可以在不崩溃的情况下从头到尾保持训练运行,我们也可以在一两周内不崩溃地保持训练运行。这种可靠性部分真的与当时发生的事情产生了共鸣。

问题是,这真的不容易做到。你看,我们有一个内部文档,大约200页,记录了训练模型时可能出错的所有事情。从如果你在这个节点上看到这个错误,然后告诉你的硬件操作员这两个节点之间有问题,这些其他节点之间有问题,一直到有趣的部分。在某个时候,当我们训练Oasis时,我们也需要一些合成数据来生成。所以我们说:“好吧,我们有一个有很多GPU和CPU的集群。我们可以用这个,在训练的同时生成大量的合成数据。”顺便说一下,这让我们GPU云提供商的头脑都炸了。他们说:“你们正在以200%的利用率使用集群。你们正在使用CPU、GPU,甚至在训练期间使用InfiniBand来传输数据。”所以我们从集群中得到了比预期更多的东西。

现在,这一切都讲得通了。一方面,你有GPU被利用,CPU没有被利用,所以你并行运行合成数据。它不应该利用它,只是CPU,所以它不应该伤害任何东西。然后你的训练运行不工作了,你得到一个随机错误,字面上说“缺少锁文件”和数据加载器。就像这两者是如何相关的?它们是这样的:合成数据生成使用了更多的RAM,这没问题,但它导致数据在不同节点之间移动,因为合成数据正在生成。它使用了比以前更多的网络带宽,这导致Python的数据加载器拿走了它的一个锁文件,通常是网络映射的,并将其移动到磁盘上进行交换。这导致不同节点有不同的锁文件,这导致数据加载器崩溃。现在,我可能说错了,团队可能正在听这个,就像,“不,Dean,你完全错了,”但这是发生的事情的TLDR。你做了一些应该有意义的事情,然后你得到了一个随机错误。这就是日常,我们有一个200页的文档记录了所有这些事情。

Shaun Maguire: 这是一个简单的例子。迪恩很乐意分享,你知道,他们还有很多更难、更重要的事情需要解决。我认为有一件事相对简单,但能反映出当前AI的状态, Dean,如果你不想谈这个,可以跳过,但他们获得了一个新的集群,而不知怎么的,这个集群还没有安装内存。GPU的板载内存非常少。所以,像大多数人一样,他们甚至无法使用这些GPU。你能分享一些关于这方面的信息吗?

Image

Dean Leitersdorf: 所以,这其实是一个有趣的故事。我们称之为地球上训练视频模型的最佳地点。 训练视频模型不仅仅是关于集群;它还涉及围绕集群的一切。你需要有存储、网络以及更多其他的东西来打造地球上训练视频模型的最佳地点。我们实际上离实现这一点还很远。 我预计在接下来的半年里,很多这方面的工作将会稳定下来,许多GPU云也在致力于此。然而,在我们所接触的一个集群中,没有任何存储设备。顺便说一下,这不仅仅发生在一个集群上;在不同的云环境中,有几个集群都出现了这种情况。云提供了GPU,而...

Shaun Maguire: 他们试图专注于获取H100s,但却忽略了内存或存储问题。

Dean Leitersdorf: 存储问题本来是可以解决的,他们最终也会安装。他们试图尽可能快地发布所有东西,这是可以理解的。然而,当时没有像S3桶那样稳定且优化的存储解决方案。因此,我们决定在连接到每个节点的SSD之上构建我们自己的小型、伪分布式文件系统。我们这样做了,并且成功了。虽然有很多挑战需要克服,但最终它还是奏效了。这与您关于垂直整合的问题有关。Shaun Maguire对业务的了解比我深得多,而且在这个领域比我待的时间更长。 我完成了我的博士学位,我只是给你打了电话。

Shaun Maguire: 我在Google刚推出时就使用了它,并在其IPO时购买了股票,那也是我出生的时间。

Image

Dean Leitersdorf: 所以,我认为在我出生之前,不,96年,99年,我想是99年,好吧,嗯,但没错,就我所见,如果我错了请纠正我,垂直整合通常会给你两样东西:它给你成本降低,比如更高的利润率,或者其他什么,它还给你更快的行动能力。 也许它会给你第三样东西,因为通常事情会给你三样东西,但谁知道呢?所以,我认为在人工智能领域,虽然两者都很重要,但我认为第二个比第一个更重要,因为归根结底,如果你看看我们面临的所有问题,很好,它们会被解决,但解决它们需要时间。

如果你知道,我认为有一篇很棒的文章,我想是在《The Information》上,关于几个月前离开谷歌去创业的人突然意识到什么都不能用,因为谷歌内部一切都能用,然后你出去,哦,没有存储,或者哦,我的云提供商不提供这个,我实际上需要处理这个。所以,好吧,随着时间的推移,这些事情会稳定下来,你的云会提供你需要的东西,你会拥有提供系统中间层或模型训练中间层的伟大公司,这将使很多事情变得更容易。

但如果你真的从端到端做所有事情,你可以比其他人早一年进入市场,你可以比其他人早两年进入市场,我认为这就是关键所在,因为即使我们回到谷歌或OpenAI的故事,技术模式不会持久,对吧? 当然,谷歌是一个很棒的搜索引擎,Bing可能也不错,好吧,也许谷歌有更多的数据,所以他们现在能做更多,但微软,你知道,公司,他们一直在为Bing工作这么久,它是一个好的搜索引擎,他们有技术,但这并不意味着现在Bing和谷歌是平衡的,对吧?

所以,归根结底,这里的整个游戏是快速获得你的技术模式,然后快速转换,比其他人早两年,就像谷歌和OpenAI所做的那样,尽可能快地将其转换为不同的笔记,这就是这里的游戏,这就是你必须玩的游戏,因为我们可以都说,好吧,你知道吗,红杉投资都很好,让我们把钱存银行一会儿,好吧,让我们赚点利息,我们去海滩待两年,等一切都稳定下来,两年后我们回来,然后我们会建立同样的公司,那会很棒,但其他人会先做,这就是为什么我们选择这样做。

Image

Sonya Huang: 垂直整合,我喜欢。你的下一步计划是什么?

Dean Leitersdorf: 长期的还是短期的?两者都有。短期技术,这很棒。

我们拥有最好的系统层技术,同时也在进行模型层的工作,所以我们是全面整合的。这就是你最终的远程操作。无论是短期还是长期,我认为这是一个很好的问题。让我分享一些我发现非常有趣的东西。今天存在一种新的、较弱的网络效应,这在以前是不存在的。这种网络效应被称为人们在TikTok上说的话。为什么这很有趣?我从一家我学到了很多,并且我认为实际上是一家非常好的公司那里学到了很多。他们最终卖给了Character AI。他们没有卖给谷歌,而是想回去训练大型模型。从Character AI那里有很多可以学习的地方。其中最引人注目的是他们的TikTok模式。如果你上TikTok并搜索任何角色,你会发现一个竞争对手的视频,但然后你会滚动看到100个Character AI的视频。即使你看的视频不是Character AI的,评论里也充满了Character AI。如果你和一个随机的Character AI用户交谈,他们甚至不知道竞争对手的存在。由于TikTok,人们对你的看法在TikTok上形成了一种新的模式。你在这里有一个小型的网络效应吗?我不确定这是网络效应还是品牌效应,但为什么这与品牌不同?

Sonya Huang: 所以它非常类似于品牌,但它就在你眼前。20年前的品牌是关于你是否听到你的朋友或父母谈论它。在这里,年轻一代总是刷TikTok,所以他们立刻就能看到。甚至还有一个大问题,OTE是否能存活两到三年,直到你获得像谷歌那样的疯狂品牌或分销品牌之类的长期模式。我认为我们真的处于这个新市场中,我们不一定会有10年前那样的模式。

Shaun Maguire: 以前,非常有趣。不过,硬件始终是最好的模式,而且对于像谷歌这样的公司来说,我认为你知道他们将最初类似于软件模式和分布式系统模式提升为硬件模式。嗯,我个人认为谷歌并没有充分利用这种模式。你知道,在应用层面上,自早期以来,他们并没有推出太多真正出色的突破性消费者产品,但他们确实拥有绝对巨大的成本优势,真的,因为他们在硬件层面上。当我还在谷歌时,有一个项目让我完全震惊,并为一些投资做好了心理准备,这个项目基本上是谷歌构建了光互连来在数据中心之间移动数据。如果你在谷歌上搜索“Jupiter Rising”(谷歌数据中心),你会找到相关的论文。基本上,这些光开关通过开启它们,基本上使数据中心的性能翻了一番。就像,这些开关主要用于数据中心内的机架到机架,你知道,从电子到光子。而且,你知道,这些开关非常难以构建,基本上如果你问谷歌以外的人...

Dean Leitersdorf: 当时,有可能建造吗?

Shaun Maguire: 你知道,这个每秒100太比特的交换机,或者他们说的任何东西——绝对不可能,但他们做到了。 多年来人们甚至不知道谷歌拥有这个,它将数据中心的能耗降低了30%左右。这些都是真正的根本性举措。 我认为,总是很难知道未来会伴随哪些举措,但我坚信硬件是最终的举措,部分原因是移动原子总是会有极端的延迟——比如启动晶圆厂、获取电力、建造发电厂。即使在拥有AGI的世界中,硬件的时间尺度,即使在拥有数十亿个Optimus机器人的世界中,制造新硬件的时间尺度也会慢得多或更长。所以,无论如何,我希望Dart有一个坚固的远程控制。

Image

Dean Leitersdorf: 我长期来看同意你的观点。这实际上可以追溯到我们创立公司的时候。我们称之为“金券”——一个千载难逢的机会,在科技发生巨大变革的时代,我们可以解决一些根本性的限制,从而创办一家公司。 我们对这个领域的分析确定了三个我们可能建立的潜在巨大公司:

  1. 一个英伟达的竞争对手,拥有专为AI设计的下一代芯片。 这将非常艰难,因为英伟达不仅是一个芯片巨头,还是一个供应链巨头。然而,如果你在业务方面表现出色,这是可行的。
  2. 下一个AWS。 由于工作负载正在发生变化,存在机会,但由于市场上的默认赢家,这非常困难。
  3. 创造足够剧烈的新体验,以在五年内而非三十年内催生下一个万亿美元公司。

我们选择从体验开始,但建立一个英伟达的竞争对手是一个强有力的第二选择。我一直想着有一天我们会回到这里。

Image

Sonya Huang: 我明白你们为什么会成为朋友。我想用最后一个问题来结束这次对话:如果一切顺利,10-15-20年后,Dart会变成什么样,你们创造了哪些体验?消费者娱乐的未来是什么?我不知道这是否是正确的市场。

Dean Leitersdorf: 我要说这个,并向红杉资本的James致敬,因为是他创造了这个术语:生成体验,GX。好吧,我们称之为UX已死,GX万岁。基本上,我们将以符合人类与计算机互动的方式生成新的体验。这包括从角色AI生成的体验到实时视频模型或生成的体验。归根结底,Dart是一家生成体验公司。我们通过完全垂直整合、拥有系统层来实现这一点。最终,你是一家生成体验公司,创造着将触及地球上每个人的新一波体验。这就是Dart现在的位置。唯一的问题是它需要10年还是15年。在当今时代,可能不需要那么长时间。之前的巨头统治世界花了很长时间。我不知道这次是否需要那么长时间,但至少需要五年。

Sonya Huang: 你们的时间尺度与许多顶级AI研究人员不同,我真的很尊重这一点。我们应该用快速问答环节结束吗?当然,开始吧。除了Oasis之外,你最喜欢的AI应用是Chat和Character之间的哪一个?

Dean Leitersdorf: 必须是ChatGPT和Character之间的哪一个。他为什么不用Character,好吧?但在基本概念上,我们将拥有这些应用程序,它们是与数亿人建立某种关系(无论是友谊还是实用关系)的实体。我认为这是一个疯狂的平台,将成为未来许多事物的基础。

Sonya Huang: 是的,我喜欢那个。最喜欢的AI公司可能和上一个答案一样。

Dean Leitersdorf: 和上一个答案一样。

Shaun Maguire: 和上一个答案一样。嗯,好吧,让我们看看。你第一次编程是什么时候?

Dean Leitersdorf: 第一次编程。呃,我13岁的时候。为RuneScape编写机器人。好吧,很棒的游戏。RuneScape。我为它编写了多年的机器人,直到六年后,我使用了一个从互联网上下载的机器人。24小时后,被封禁了。

Sonya Huang: 我们会先有AI生成的视频游戏还是AI生成的小说?我的意思是,在那个我会真正付费的水平上。

Dean Leitersdorf: 呃,你首先会拥有的是一个平台,让其他人使用创造力来创建这个内容,因为AI仍然远远无法创造创意内容。

Shaun Maguire: 非常有趣。好吧,你最喜欢的科学家是谁?

Image

Dean Leitersdorf: 我最喜欢的科学家是列奥纳多·达·芬奇。我认为他既是一位非凡的科学家,也是一位杰出的工程师,而且他不知怎么地成功地为他的项目筹集了资金。 如果你回顾达·芬奇,他确实是一位伟大的科学家和工程师,而且他知道如何从当时的VC(国王们)那里筹集资金。所以,达·芬奇绝对是我的首选,尼古拉·特斯拉紧随其后。我们选择“the cart”这个名字的原因是因为我们参考了特斯拉。我们既喜欢这家公司,也喜欢这个名字,而且我们需要一个能够体现尼古拉·特斯拉为特斯拉公司所体现的相同品质的人。 为此,“the cart”是完美的选择,因为“我思故我在”与AI的许多特质非常相似。

👉 “神器来袭”ReadLecture一键总结讲座视频,图文并茂,2小时视频5分钟阅读!

往期推荐