黑客笔记18:SecBench网络安全大模型评测结果GPT-4还是第一

308 阅读2分钟

国内个人用户用的比较多的就是文心一言/通义千问/讯飞星火/智谱清言,在极客时间里面,这4个AI的API都被接入进去了,而且这几个大模型都有对应的APP可以使用。腾讯联合其他几家推出网络安全测评的时候感觉挺有意思。

腾讯朱雀实验室和腾讯安全科恩实验室联合腾讯混元大模型团队、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队以及上海人工智能实验室OpenCompass团队,共同建设业界首个网络安全大模型评测平台SecBench,旨在为大模型在安全领域的落地应用选择基座模型提供参考,加速大模型落地进程。同时,通过建设安全大模型评测基准,为安全大模型研发提供公平、公正、客观、全面的评测能力,推动安全大模型建设。

其实就是检测一下AI大模型对网络安全类的题目的正确解答能力,和检测它对于其他学科的能力都是一样的。

其实现在有关中文AI大模型的评测有很多,例如SuperCLUE中文通用大模型综合性测评基准排行榜,复旦大学LLMEval3排行榜,上海人工智能实验室opencompass排行榜。

以复旦大学的为例,LLMEval-3聚焦于专业知识能力评测,涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科,共计约20W道标准生成式问答题目。

企业微信截图_17081445611144.png

这个排行榜上GPT4是第一。

在SecBench的排行中,GPT4和GPT3.5分别位居第一和第二,但是这个测评的所有模型总共才9个,很多国内的都没加进去。这个图是GPT4的。

企业微信截图_17081448608075.png

这个是GPT4的,6门考试全部通过,只能说确实牛逼,国内的和他们相比,真的差的不是一星半点。

既然如此,在其他考试例如cisp/cissp/cisa上应该都是很厉害的存在,这个也可以反向证明出,AI可以超越80%的人是没问题的。目前对于概念性的问题解答,答案还是比较优质的,关键是AI是在持续进化和改进的,未来的准确度只会越来越高。

AI大模型对于入门网络安全是一个非常有帮助的工具,今后程序员的入门更容易。