千模大赛哪家强? 大语言模型中文评测实践

249 阅读11分钟

原文 首发于 2023年6月5日

华山论剑,谁与争锋?

简单介绍主流大模型的几个评测效果。

图片

(1)华山论剑:“千模”大赛

这几个月,各种大语言模型纷纷推出,名字一个比一个霸气侧漏,千帆竞发,百舸争流,让人眼花缭乱。

图片

简介

  • 国外:OpenAI的ChatGPT和GPT-4独领风骚,离职员工组建创业公司,开发的Claude紧跟其后,接着Meta的“开源”模型LLaMA掀起小模型羊驼系列的进化浪潮,Bing得天独厚,激进推行产品落地,而昔日霸主谷歌欲哭无泪。

  • 国内:大厂纷纷角力,文心、通义、星火、智脑等,还有高校机构,MOSS、ChatGLM、二郎神、悟道等等,有得匆匆内测、关停,有的宣讲会上放视频,有的现场DEMO,有的悄无声息。

(2)裁判员的苦恼

突然冒出这么多大模型,一时间让人不知所措:

  • 有的人云亦云:国外吊打国内,无脑跟进国外大模型;

  • 有的自卖自夸:功能比ChatGPT多,只有几个月差距;

  • 有的大声吆喝:几个小模型“声称”达到ChatGPT/GPT-4的90+%;

  • 有的格外谦虚:自家大模型效果很不好,持续改进。

作为理性派,脑子里本能涌出“十万个为什么”:

  • 到底哪家好?

  • 我该“钟意”哪个?

  • 非要自己“随机”摸索?

  • 用什么数据集?

  • 评测方法科学吗?

  • 是不是替人站台?

  • 评测结果权威吗,有异议没?

有时候,选择太多也是一种痛苦。原因:

  • 信息不对称:由于各种原因,呈现给我们的大多是局部信息,而且几经倒手、修饰,未必是本来面目。

  • 选择困难症:面对众多选项,不明所以,陷入迷茫,随机摇摆。

  • 决策方法:明确需求,制定目标,再去科学评估各个选项,这样的结论才更合适。别人眼里的好,不一定真的好,适合自己的才是“最好”的。

怎么办?获取更多客观、真实的信息,有助于缓解症状。

比如,亲自申请搭tizi,申请内测资格,斗智斗勇。然而

  • 一方面资源受限,不是想测就能测的,付费也未必管用

  • 另一方面,精力有限,专业度有限,并不能真正衡量各家大模型的水平。

那就找评测报告?尤其是第三方评测报告,差异越大越好,这样综合出来的信息更客观、准确,减少认知偏差。

(3)评测报告

国内外很多机构、个人都在想办法评测大模型。

(3.1)国际评测

先放眼全球,看看老外怎么评测。

(3.1.1)Huggingface

著名大模型开源社区Huggingface(抱抱脸)出品的排行榜:

🤗 Open LLM Leaderboard

  • 参赛者:发布到Huggingface的开源大模型

  • 数据集:使用4个公开英文数据集,

  • AI2 Reasoning Challenge(25-shot)- 小学科学问题。

  • HellaSwag(10-shot)- 测试常识推理,对人类来说很容易(~95%),但对最先进的模型来说却具有挑战性。

  • MMLU(5-shot)- 多任务准确性测试, 覆盖57个任务,包括基础数学、美国历史、计算机科学、法律等。

  • Truthful QA MC(0-shot)- 生成答案是否真实的测试基准。

  • 最新榜单:

图片

备注:

分析:

  • 排名第一的是阿联酋阿布扎比的技术创新研究所(TII)开发的「Falcon」猎鹰,性能上LLaMA的表现更好。

  • 第二、三是LLaMA系列,LLaMA是开源世界的霸主。

  • 其它模型大多也是LLaMA的衍生品,如:alpaca、vicuna等等

问题:

  • 这么多模型,没几个认识的。——没错,huggingface 排行榜只算开源模型,因而,看不到 GPT-4、ChatGPT。

  • 都是英文,其它语言表现不明。

  • 数据集静态,脱离现实,当然也就测出来新事物。

  • 记分方法不明,估计是每道题同等重要(实际上题目有难易,类目之间也有难易)

(3.1.2)LMSYS

简单借用传统学术数据集来衡量大模型聊天效果,有些牵强:

  1. 评判聊天机器人效果,本身就非常主观,现有方法很难衡量。

  2. 大模型训练时几乎把整个互联网数据都扫了个遍,很难保证测试数据集没有看到。甚至用测试集直接对模型进行「特训」,提升效果。这些都属于显式或隐式作弊。

  3. 理论上可以和机器人聊任何事情,但很多话题/任务数据集里根本没有。

既然固定数据集测试问题多多,那有没有不依赖数据集的方法?

有,比如:

  • 花钱请人给模型打分。OpenAI就是这么做的,只是慢且费钱。

于是,UC伯克利、UCSD、CMU团队发明了一种既好玩又实用的全新机制——聊天机器人竞技场(Chatbot Arena)

相对于传统的基准评测方法,竞技场方法的优点:

  • 可扩展性(Scalability): 可自由扩展尽可能多的模型。

  • 增量性(Incrementality): 对数据没有强依赖,可用相对少的试验次数评估新模型。

  • 唯一顺序(Unique order): 所有模型有唯一顺序。给定任意两个模型,判断哪个排名更高或相同。

具体怎么实现呢?借鉴竞技比赛的评分系统:Elo等级分制度(Elo rating system),计算玩家相对技能水平。原理省略,详见:wqw547243068.github.io/llm\\_eva#l…

回到正题:

  • 参赛者:主流大模型

  • 数据集:英文语料

  • 评分方法:Elo评分,经过两两对战后,投票、统计

  • 最新榜单:

图片

备注:

分析:

  • GPT-4(1225)>Claude-v1(1195)>Claude-instant-v1(1153)>ChatGPT(1143)>Vicuna-13B(1053)>。。。

  • 国内出品的大模型中,RWKV-4-Raven-14B排名最高,但也只有12名,清华的ChatGLM是14名

问题:

  • 有中文评测吗?

(3.2)国内评测

中文评测,还得中国人自己来做。

(3.2.1)InfoQ版评测报告

2023年5月29日,InfoQ发布《大语言模型综合能力评测报告》(原文私信公众号)

InfoQ 研究中心选取语言模型准确性、数据基础、模型和算法能力、安全和隐私四个大维度和 12 个细分维度,分别对ChatGPT、Claude、Sage、天工3.5、文心一言、通义千问、讯飞星火、Moss、ChatGLM、vicuna-13B进行了超过 3000+ 道题的评测。

评价维度:

分成三类:基础、模型算法能力、安全和隐私

  • 评分方式更好了,出现了大模型特有的“安全与隐私”

  • 每个类别新增权重,区分了类目难易。

图片

展开后,具体涉及10类,共300道题

图片

参赛选手

图片

评测结果

图片

分析:终于看到了国内知名大模型

  • ChatGPT>文心一言>Claude>讯飞星火>Sage>。。。

问题:

  • 这个榜单看着似懂非懂,跟预期有些出入:文心这么厉害?ChatGPT才77分?

(3.2.2)新华社研究院

6月2日,国企(新华社)终于也开始测评大模型了。

参赛选手:

图片

评测方法:传统做题,简单累加

4大类,36个子能力,累计300道题

  • 基础能力:100道

  • 智商测试:100道

  • 情商测试:50道

  • 工作提效:50道

评测结果:

  • GPT-4(1246)>ChatGPT(1148)>文心一言(1112)>通义千问(1020)>星火(1010)>商量(967)>ChatGLM(943)>Vicuna-13B

图片

分析:

  • 文心雨ChatGPT距离变大,当然依旧是国内大模型佼佼者。

  • 这个榜单新增了子类目得分

问题

  • 数据集“黑盒”:是否适合大模型评测?具体有啥?我们看不到(当然新华社也未必愿意给,囧)

  • 评测维度偏应用,缺乏技术层次的分析。毕竟是面向普罗大众的。

(3.2.3)SuperCLUE琅琊榜

5月9日,一家创业公司,仿照NLP评测领域国际标准SuperGLUE,推出中文通用数据集SuperCLUE,专门用于大模型评测。

SuperCLUE从三个维度评价模型能力:基础能力、专业能力和中文特性能力。

  • 基础能力: 包括了常见的有代表性的模型能力,10项。

  • 语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全

  • 专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

  • 抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等

  • 中文特性能力: 针对有中文特点的任务,包括10项多种能力。

  • 成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文

还首次采用全自动评测,谨慎起见,引入人工交叉复合。

评测方式上,跟LMSYS一样,借用Elo评级系统来计算模型的相对性能

截止2023年5月29日的榜单:

图片

备注:地址,www.superclueai.com/

分析:有些“反常识”

  • Claude(1215)超出ChatGPT(1171),国内新秀MiniMax(1188)也超出了

  • 清华ChatGLM-130B(1163)趋近于ChatGPT,连ChatGLM-6B小模型也只是稍逊于ChatGPT

  • 为啥没有文心、讯飞等国产大模型?有些敏感,情有可原。

(4)自研评测

以上评测方法各有千秋,但看了这么多,还是没能解决“十万个为什么”。

要不,我也构建一个小规模数据集,亲自评测下?这样的结论才更有说服力。

说干就干。

(4.1)评测方法

从实用主义出发,选取4个维度

  • 基础能力:NLP常见的基础任务,这些指标有利于快速验证业务需求是否匹配

  • 对话能力:一个好的对话系统涉及多方面的评测,除了知识问答,还有闲聊、多样性、一致性以及大模型特有的功能,如:角色扮演、道德约束、安全隐私、指令遵循等等。

  • 应用功能:具体功能,工具类(写代码、做题),创作类(文案、邮件、写诗等),可以对付产品/业务的需求

  • 工程实施:模型再好,不能落地也白搭

图片

题目设计上,区分难易程度,同时对题目数目不敏感。

总分应该根据应用场景适配,用户可以自行配置大类、小类权重,进而得到更加合理、个性化的记分方案

记分方法:

  • ① 每道题都有难度等级(5分制,3是常规)、评分(10分制,6分及格);

  • ② 大类:基础、对话、功能以及工程,权重根据应用场景设置,按百分比分配

  • ③ 小类:按对应题目统计总得分,单题分数=评分*难度/3

图片

(4.2)评测数据集

考虑到自动评估方法(如GPT-4)的“不可控”,以及题目的灵活性,机器很难给出合适的打分,于是,单题打分只用人工!

代价就是耗费了大概2人3天的精力,从人工构建数据集,到挨个打分、校验,再到写代码统计、可视化。

每个大模型测试一遍耗费1-2h,评分耗费30分钟-1h。

数据集示例:约120道,4个大类,42个小类,每类大概1-10道题

图片

(4.3)排行榜

参赛选手:ChatGPT、Claude-instant、文心一言、星火等,大约10个模型。

  • 抱歉,没有GPT-4,因为穷啊

  • 也没有New bing、BARD,因为精力耗费大

同时,为了体现公平性,引入人工作答,作为对比。

初步设置权重:

  • 基础、功能各占30%,对话占40%,而工程 0%(先不看)

  • 二级类目中,有些加权,如:逻辑推理、知识问答、创作等相对重要的能力。

conf_weight = {

一级类目权重:

图片

最后得到总分及一级类目排名:

总分排名

图片

各维度雷达图

图片

详细数据

图片

分析:中文理解上,与实际感知相仿。

  • ChatGPT(80)遥遥领先,星火(70),Claude(68). 

  • 其次,文心与360智脑、通义千问、天工相仿

  • 最后,开源模型系列,ChatGLM、Vicuna和BloomChat

除了总分、一级类目,还可以细分二级类目的排行榜。

图片

(由于页面长度,42个子类只显示部分,全部结果请私信)

附录: