黑客笔记18：SecBench网络安全大模型评测结果GPT-4还是第一国内个人用户用的比较多的就是文心一言/通义千问/讯

国内个人用户用的比较多的就是文心一言/通义千问/讯飞星火/智谱清言，在极客时间里面，这4个AI的API都被接入进去了，而且这几个大模型都有对应的APP可以使用。腾讯联合其他几家推出网络安全测评的时候感觉挺有意思。

腾讯朱雀实验室和腾讯安全科恩实验室联合腾讯混元大模型团队、清华大学江勇教授/夏树涛教授团队、香港理工大学罗夏朴教授研究团队以及上海人工智能实验室OpenCompass团队，共同建设业界首个网络安全大模型评测平台SecBench，旨在为大模型在安全领域的落地应用选择基座模型提供参考，加速大模型落地进程。同时，通过建设安全大模型评测基准，为安全大模型研发提供公平、公正、客观、全面的评测能力，推动安全大模型建设。

其实就是检测一下AI大模型对网络安全类的题目的正确解答能力，和检测它对于其他学科的能力都是一样的。

其实现在有关中文AI大模型的评测有很多，例如SuperCLUE中文通用大模型综合性测评基准排行榜，复旦大学LLMEval3排行榜，上海人工智能实验室opencompass排行榜。

以复旦大学的为例，LLMEval-3聚焦于专业知识能力评测，涵盖哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学、艺术学等教育部划定的13个学科门类、50余个二级学科，共计约20W道标准生成式问答题目。

企业微信截图_17081445611144.png

这个排行榜上GPT4是第一。

在SecBench的排行中，GPT4和GPT3.5分别位居第一和第二，但是这个测评的所有模型总共才9个，很多国内的都没加进去。这个图是GPT4的。

企业微信截图_17081448608075.png

这个是GPT4的，6门考试全部通过，只能说确实牛逼，国内的和他们相比，真的差的不是一星半点。

既然如此，在其他考试例如cisp/cissp/cisa上应该都是很厉害的存在，这个也可以反向证明出，AI可以超越80%的人是没问题的。目前对于概念性的问题解答，答案还是比较优质的，关键是AI是在持续进化和改进的，未来的准确度只会越来越高。

AI大模型对于入门网络安全是一个非常有帮助的工具，今后程序员的入门更容易。