语言对齐的数据集是人工智能进展的速率限制器2011年板球世界杯决赛后，印度队长MS Dhoni被问及为什么他决定提升自己

2011年板球世界杯决赛后，印度队长MS Dhoni被问及为什么他决定提升自己的击球顺序（尽管他在整个战役中没有达到最佳状态）。虽然这个决定很冒险，但多尼说，鉴于印度在比赛初期失去了一些关键的小门，他想有技巧地对付非投手，给对手制造压力。

他的决定得到了验证，印度在28年后第二次赢得了世界杯。尽管多尼解释说他做出了这个决定，但由于人脑的复杂性，这个决定背后的神经机制无法用语言表达出来。

"当有人问 "你为什么这么想？"时，你无法阐明真正的原因：你脑中的数十亿个神经元发射模式导致了你的结果。你把这种复杂性投射到低维的语言描述中，"ScaleAI的Nucleus主管Russel Kaplan说。

人工智能的圣杯是建立一个类似人类的大脑。但我们才刚刚开始接触这个问题的表面。

数据集

"越来越清楚的是，与语言相匹配的数据集是许多领域中人工智能进展的速率限制器。卡普兰说："我们在文本到图像生成和图像标题方面看到了令人难以置信的结果，这在很大程度上是因为互联网免费提供了大量的语言<>图像监督。

为了让人工智能产生准确的结果，使用正确的数据集来训练机器学习算法很重要。数据集构成了训练机器学习模型的基础，在该领域的进步中发挥着基础性作用。机器学习模型一般包含不同的数据集，如数字数据集、时间序列数据集和文本数据集。最近，基于文本输入生成图像的人工智能/ML模型一直占据着所有的风头。这些ML模型已经在具有相应文本描述的大型图像数据集上进行了训练，产生了更高质量的图像和更广泛的描述。例子包括DALL.E 2、Imagen 和PARTI。

DALL-E 2，OpenAI的新人工智能程序，可以从自然语言的描述中创建逼真的图像和艺术。它不仅可以通过结合概念、属性和风格，从文本描述中创造出原始、逼真的图像和艺术，还可以从自然语言的标题中对现有图像进行逼真的编辑。谷歌的Imagen是一个类似于DALL.E 2的文本到图像模型。

左边的图像文本输入。多伦多天际线与谷歌脑图；右图文字输入。戴着空手道腰带的火龙果。

"通过搜刮图像+标题对，你可以创建一个强大的自我监督目标来关联图像和文本：只有当图像和文本来自同一对时，才会使其嵌入相似。但大多数数据模式并不带有这种语言对齐功能，"卡普兰说。

DALL.E 2和Imagen使用 "扩散 "来生成基于文本输入的图像。扩散是一个过程，模型学会将随机点的模式转换为图像。扩散模型已经在图像和音频任务中看到了成功，如增强图像分辨率、重新为黑白照片着色、编辑图像的部分内容以及文本到语音合成。谷歌的Pathways Autoregressive Text-to-Image(PARTi)是一个自回归文本-图像生成模型，它首先将一组图像转换为一连串的代码条目，类似于拼图。然后，一个给定的文本提示被翻译成这些代码条目，形成一个新的图像。

语言模型的作用

语言模型在文本到图像的生成中起着关键作用。以Imagen的情况为例。它建立在大型转化器语言模型在理解文本方面的力量之上，并依赖于扩散模型在高保真图像生成方面的力量。这些天来，大型语言模型（LLMs）正在获得大量的关注。LLMs是在巨大的文本数据上训练的强大程序，有时达到PB级规模。

LLMS的受欢迎程度不断上升是由于几个因素，如一个单一的模型可以用于多种任务，如文本生成、图像生成、文档总结、翻译等；它们可以根据少数标记的例子做出体面的预测；而且，随着越来越多的数据和参数的增加，它们的性能不断提高。OpenAI的GPT-3，以及由微软和Nvidia开发的Megatron-Turing自然语言生成（MT-NLG），是一些流行的LLM。

语言对齐的数据集

文本对齐的数据集在文本到图像生成方面取得了巨大的进步。然而，在游戏、医疗诊断和经济数据等领域，情况并非如此，在这些领域，AL模型只能建议一个特定的动作或行动，但未能证明其正确性。"软件动作、工作任务、医疗保健、经济数据、游戏......想想我们没有**这种语言对齐的训练数据的所有领域，以及如果我们创建这种数据会有什么可能，"卡普兰说。

例如，在AlphaZero的案例中，DeepMind的人工智能驱动的计算机程序根据它所训练的数十亿次国际象棋棋步，提出了可能的最佳棋步。然而，它无法解释为什么那步棋据说是最好的。

"当然，这样的解释不会是完全准确的。任何语言的解释都是AlphaZero的矩阵乘法洪流中真正发生的事情的低维投影。但当我们用语言来描述我们自己的思维过程时也是如此，"卡普兰说。

再举个例子。由新加坡南洋理工大学（NTU Singapore）、新加坡义安理工学院（NP）和新加坡国家心脏中心（NHCS）的一个研究小组开发的诊断工具，用于识别心血管疾病。被称为Gabor-Convolutional神经网络（Gabor-CNN）的人工智能机器学习算法可以识别患者心电图中的模式，并预测冠状动脉疾病、心肌梗塞和充血性心力衰竭。然而，它不能说明某个病人为什么会出现这种疾病。

无法解释的原因是，上述案例中使用的数据集没有进行语言对齐。

语言对齐的数据集在ML可解释性方面的进展方面有很大的希望。"语言对齐的数据集是在ML可解释性方面取得阶跃性进展的关键，神经网络可以帮助解决越来越多的问题。它们还将帮助神经网络与人一起工作，而不是仅仅取代他们，"卡普兰说。

The postLanguage-aligned datasets are the rate limiter for AI progressappeared first onAnalytics India Magazine.