2011年板球世界杯决赛后,印度队长MS Dhoni被问及为什么他决定提升自己的击球顺序(尽管他在整个战役中没有达到最佳状态)。虽然这个决定很冒险,但多尼说,鉴于印度在比赛初期失去了一些关键的小门,他想有技巧地对付非投手,给对手制造压力。
他的决定得到了验证,印度在28年后第二次赢得了世界杯。尽管多尼解释说他做出了这个决定,但由于人脑的复杂性,这个决定背后的神经机制无法用语言表达出来。
"当有人问 "你为什么这么想?"时,你无法阐明真正的原因:你脑中的数十亿个神经元发射模式导致了你的结果。你把这种复杂性投射到低维的语言描述中,"ScaleAI的Nucleus主管Russel Kaplan说。
人工智能的圣杯是建立一个类似人类的大脑。但我们才刚刚开始接触这个问题的表面。
数据集
"越来越清楚的是,与语言相匹配的数据集是许多领域中人工智能进展的速率限制器。卡普兰说:"我们在文本到图像生成和图像标题方面看到了令人难以置信的结果,这在很大程度上是因为互联网免费提供了大量的语言<>图像监督。
为了让人工智能产生准确的结果,使用正确的数据集来训练机器学习算法很重要。 数据集 构成了训练机器学习模型的基础,在该领域的进步中发挥着基础性作用。机器学习模型一般包含不同的数据集,如数字数据集、时间序列数据集和文本数据集。最近,基于文本输入生成图像的人工智能/ML模型一直占据着所有的风头。这些ML模型已经在具有相应文本描述的大型图像数据集上进行了训练,产生了更高质量的图像和更广泛的描述。例子包括DALL.E 2、Imagen 和PARTI。
DALL-E 2,OpenAI的新人工智能程序,可以从自然语言的描述中创建逼真的图像和艺术。它不仅可以通过结合概念、属性和风格,从文本描述中创造出原始、逼真的图像和艺术,还可以从自然语言的标题中对现有图像进行逼真的编辑。谷歌的Imagen是一个类似于DALL.E 2的文本到图像模型。
左边的图像文本输入。多伦多天际线与谷歌脑图;右图文字输入。戴着空手道腰带的火龙果。
"通过搜刮图像+标题对,你可以创建一个强大的自我监督目标来关联图像和文本:只有当图像和文本来自同一对时,才会使其嵌入相似。但大多数数据模式并不带有这种语言对齐功能,"卡普兰说。
DALL.E 2和Imagen使用 "扩散 "来生成基于文本输入的图像。扩散是一个过程,模型学会将随机点的模式转换为图像。扩散模型已经在图像和音频任务中看到了成功,如增强图像分辨率、重新为黑白照片着色、编辑图像的部分内容以及文本到语音合成。谷歌的Pathways Autoregressive Text-to-Image(PARTi)是一个自回归文本-图像生成模型,它首先将一组图像转换为一连串的代码条目,类似于拼图。然后,一个给定的文本提示被翻译成这些代码条目,形成一个新的图像。
语言模型的作用
语言模型在文本到图像的生成中起着关键作用。以Imagen的情况为例。它建立在大型转化器语言模型在理解文本方面的力量之上,并依赖于扩散模型在高保真图像生成方面的力量。这些天来,大型语言模型(LLMs)正在获得大量的关注。LLMs是在巨大的文本数据上训练的强大程序,有时达到PB级规模。
LLMS的受欢迎程度不断上升是由于几个因素,如一个单一的模型可以用于多种任务,如文本生成、图像生成、文档总结、翻译等;它们可以根据少数标记的例子做出体面的预测;而且,随着越来越多的数据和参数的增加,它们的性能不断提高。OpenAI的GPT-3,以及由微软和Nvidia开发的Megatron-Turing自然语言生成(MT-NLG),是一些流行的LLM。
语言对齐的数据集
文本对齐的数据集在文本到图像生成方面取得了巨大的进步。然而,在游戏、医疗诊断和经济数据等领域,情况并非如此,在这些领域,AL模型只能建议一个特定的动作或行动,但未能证明其正确性。"软件动作、工作任务、医疗保健、经济数据、游戏......想想我们没有**这种语言对齐的训练数据的所有领域,以及如果我们创建这种数据会有什么可能,"卡普兰说。
例如,在AlphaZero的案例中,DeepMind的人工智能驱动的计算机程序 根据它所训练的数十亿次国际象棋棋步,提出了可能的最佳棋步。然而,它无法解释为什么那步棋据说是最好的。
"当然,这样的解释不会是完全准确的。任何语言的解释都是AlphaZero的矩阵乘法洪流中真正发生的事情的低维投影。但当我们用语言来描述我们自己的思维过程时也是如此,"卡普兰说。
再举个例子。由新加坡南洋理工大学(NTU Singapore)、新加坡义安理工学院(NP)和新加坡国家心脏中心(NHCS)的一个研究小组开发的诊断工具,用于识别心血管疾病。被称为Gabor-Convolutional神经网络(Gabor-CNN)的人工智能机器学习算法可以识别患者心电图中的模式,并预测冠状动脉疾病、心肌梗塞和充血性心力衰竭。然而,它不能说明某个病人为什么会出现这种疾病。
无法解释的原因是,上述案例中使用的数据集没有进行语言对齐。
语言对齐的数据集在ML可解释性方面的进展方面有很大的希望。"语言对齐的数据集是在ML可解释性方面取得阶跃性进展的关键,神经网络可以帮助解决越来越多的问题。它们还将帮助神经网络与人一起工作,而不是仅仅取代他们,"卡普兰说。
The postLanguage-aligned datasets are the rate limiter for AI progressappeared first onAnalytics India Magazine.