大模型在代码生成方向的应用CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为

近年来，使用代码语料训练的大规模预训练模型取得飞速进步。Codex[1]通过使用Python求解初级编程问题，展示了预训练模型在该方面的潜力。此后，一系列代码生成模型亦得以面世，比如AlphaCode[2]、CodeGen[3]、InCoder[4]、PolyCoder[5]、PaLMCoder[6]等。这些模型都使用了多种编程语言进行训练，但是它们往往仅在Python上做正确性评测，在其它语言上的生成性能尚不明确。

现有的公开评测基准主要关注两种评价指标：字符串相似性（string similarity）或功能正确性（functional correctness）。第一种指标，如CodeXGLUE[7]和XLCoST[8]多语言基准，涵盖了代码补全、翻译、概括等任务。它们使用了BLEU[9]和CodeBLEU[10]这类判断相似性的指标，但这些指标并不能很好反映代码是否正确。相反地，第二种指标通过测试用例来判断代码功能上是否正确，如HumanEval[1:1]、MBPP[11]、APPS[12]等基准。然而，这些基准只支持Python，并不支持其他编程语言。缺乏评价代码正确性的多语言基准，阻碍了多语言代码生成模型的发展。

CodeGeeX: 多语言代码生成模型

架构：CodeGeeX是一个基于transformers的大规模预训练编程语言模型。它是一个从左到右生成的自回归解码器，将代码或自然语言标识符（token）作为输入，预测下一个标识符的概率分布。CodeGeeX含有40个transformer层，每层自注意力块的隐藏层维数为5120，前馈层维数为20480，总参数量为130亿。模型支持的最大序列长度为2048。

CodeGeeX是一个具有130亿参数的多编程语言代码生成预训练模型。CodeGeeX采用华为MindSpore框架实现，在鹏城实验室“鹏城云脑II”中的192个节点（共1536个国产昇腾910 AI处理器）上训练而成。截至2022年6月22日，CodeGeeX历时两个月在20多种编程语言的代码语料库（>8500亿Token）上预训练得到。CodeGeeX有以下特点：

高精度代码生成：支持生成Python、C++、Java、JavaScript和Go等多种主流编程语言的代码，在HumanEval-X代码生成任务上取得47%~60%求解率，较其他开源基线模型有更佳的平均性能。DEMO
跨语言代码翻译：支持代码片段在不同编程语言间进行自动翻译转换，翻译结果正确率高，在HumanEval-X代码翻译任务上超越了其它基线模型。DEMO
自动编程插件：CodeGeeX插件现已上架VSCode插件市场（完全免费），用户可以通过其强大的少样本生成能力，自定义代码生成风格和能力，更好辅助代码编写。插件下载
模型跨平台开源: 所有代码和模型权重开源开放，用作研究用途。CodeGeeX同时支持昇腾和英伟达平台，可在单张昇腾910或英伟达V100/A100上实现推理。申请模型权重

更多信息请访问以下链接：

【清华CodeGeeX项目原作解读：大规模多语言代码生成模型】

1）SOTA！模型平台项目主页链接： sota.jiqizhixin.com/project/cod…

2）GitHub 链接： github.com/THUDM/CodeG…

3）技术博客： models.aminer.cn/codegeex/bl…

4）主页（含在线DEMO）： models.aminer.cn/codegeex/zh…

5）免费的 VS Code 插件： marketplace.visualstudio.com/items?itemN…