亚马逊与SK电信联手打造韩语AI语言模型KoGPT-2

3 阅读5分钟

某机构科学家助力某电信公司打造基于韩语的自然语言处理器

某云服务被用于处理开发这一复杂开源人工智能语言模型所需的庞大数据。

韩语是一种主要的全球性语言,约有8000万人使用。尽管其历史悠久,可追溯到据信起源于满洲里的时期,但韩语在语言学上被称为“孤立语言”,与英语和法语、拉丁语之间的关系不同,它与其他语言没有明显的联系。

但现在,韩语也成为了自然语言处理革命的一部分。自然语言处理是人工智能的一个分支,旨在帮助计算机识别和解释人类语言。四月下旬,某机构宣布,韩国移动电信公司某电信与某网络服务的研究人员合作,发布了首个开源的、先进的韩语生成式预训练 Transformer 2 (GPT-2) 模型,名为 KoGPT-2。

GPT-2 是一种语言模型,经过训练,可以根据仅一个词的提示来预测(即“生成”)句子或段落的后续内容。它由人工智能研究公司OpenAI于2019年开发。GPT-2 模型类似于智能手机键盘上的下一个词预测功能,但其规模更大、也更为复杂。

KoGPT-2 是一个开源的 GPT-2 模型,它使用韩语文本进行了预训练,旨在提升韩语的机器学习性能。该模型可用于聊天机器人、搜索引擎等多种用途。

在创建 KoGPT-2 的过程中,来自某机构机器学习解决方案实验室的深度学习工程师团队与某电信人工智能中心的对话式人工智能团队进行了合作。研究人员利用某电信提供的大型韩语数据集,并借助某云服务(如某弹性计算云、某弹性结构适配器和某云文件存储),构建了 KoGPT-2 模型。

自然语言处理模型利用大量的语言样本来训练计算机理解语言结构、词语含义等。GPT-2 尤其需要庞大的数据集,以便其算法推断说话者或提问者的意图。最初的 GPT-2 模型使用了约15亿个参数,在一个超过40GB互联网数据的文本语料库上进行训练。GPT-2 的训练目标是在给定文本中所有前面的词的情况下,预测下一个词。

OpenAI 的研究人员将 GPT-2 模型描述为具有“变色龙般的特性”,能够适应给定文本的风格和上下文。这使得研究人员和工程师能够针对其选择的主题生成连贯的句子。GPT-2 已被证明功能极其强大,仅凭几个词的提示或一个概括性的场景,就能生成完全合理的文本。

为了训练 KoGPT-2,某电信创建了一个包含1.25亿个句子和超过16亿词的语料库,数据来源于韩语维基项目、韩语新闻源等。

某机构机器学习解决方案实验室的高级数据科学家 Muhyun Kim 表示,这带来了巨大的技术挑战。他说:“训练模型需要大量的计算能力。我们使用了64个GPU(图形处理器)训练了一周。在此之前,我们进行了大量的实验,以找到分析数据的正确配置并排查可能的错误。”

Muhyun 补充道:“然而,没有人类专业知识,一切都不可能实现。我们的经验帮助我们与某电信合作,优化了他们的模型并加速了训练过程。某云服务对于训练像 KoGPT-2 这样的大型模型来说是完美的,它易于使用并提供巨大的带宽。但即使网络很快,如果存储速度慢,训练也会很慢。通过使用某云文件存储,我们能够加速整个过程。”

某电信还使用了 GluonNLP(一个用于自然语言处理的开源深度学习工具包)来加速模型训练过程。

来自某机构 MXNet 团队的 applied scientist Haibin Lin 表示:“GluonNLP 提供了各种分词器和数据处理工具,使得在自定义数据集上训练最先进的模型变得容易。我们采用了混合精度训练、用于激活函数的高效 GPU 内核以及与某弹性结构适配器集成等技术,这些技术显著加速了使用 GluonNLP 进行的大规模分布式训练。”

在某机构机器学习解决方案实验室提供并实施大规模基础设施使训练成为可能的同时,某电信人工智能中心的对话式人工智能团队则提供了关键要素和语言学专业知识。如前所述,该团队精心创建了用于训练模型的数据集,并实现了使模型训练得以进行的代码,以及训练了 KoGPT-2 模型。

某电信对话式人工智能团队负责人 Kim Tae Yoon 补充道:“我们希望通过训练最先进的 KoGPT-2 模型,来帮助扩展某电信蓬勃发展的自然语言处理工作。开源并回馈不断发展的韩语NLP社区是我们团队的核心价值观,因此将这个模型开源是自然而然的。”

从实际角度来看,KoGPT-2 将使某电信的客户在与聊天机器人对话或寻找问题答案时,获得一种惊人的、近乎与人交流的体验。

KoGPT-2 已在某电信人工智能中心的 GitHub 仓库中根据修改后的 MIT 许可证提供。某机构还发布了一个 Git 仓库,提供了如何将 KoGPT-2 模型部署到某云机器学习平台中的指导。FINISHED