科大讯飞出品 | 讯飞星火大模型评测AI“千模大战”如火如荼，科大讯飞作为国内知名的智能语音和人工智能企业，必然不甘落后

AI“千模大战”如火如荼，科大讯飞作为国内知名的智能语音和人工智能企业，必然不甘落后，于今年5月份宣布推出“讯飞星火认知大模型”，并且在6月8号发布了一轮大更新，最让我感兴趣的是讯飞星火号称计划于10月24日对标ChatGPT。近期我也获得了星火大模型的体验资格，今天跟大家分享一下评测结果。

讯飞星火大模型是科大讯飞推出的新一代认知智能大模型，拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务。

感兴趣的朋友，可以通过以下链接访问「星火」内测官网，申请体验资格：

拥有体验资格后，进入体验，即可看到星火大模型界面，接下来我们也会按照之前评测大模型的标准：错误辨识、智力、表达、专业知识、上下文记忆等方面对它进行综合评测。

错误识别能力是构建可信赖AI的核心元素，对于常识问题，AI会不会胡说八道，这一点很重要。为此，我提了两个问题“猪为什么会在天上飞？”，以及忽悠瘸了很多人的“1+1在什么情况下等于3？”。

可以看到星火的错误辨识能力还是比较靠谱的，不会硬拗。

错误辨识评分：★★★

人工智能最重要的智力部分，我准备用我国古代著名的《孙子算经》里的余数计算问题来提问星火模型。

问题：现在有一堆物品堆在那儿，不知道具体数量是多少，如果每三个作为一组来数的话，最后会剩下两个；如果每五个作为一组来数的话，最后会剩下三个；如果每七个作为一组来数的话，最后也会剩下两个。那么这堆物品到底数量是多少呢？

可以看到星火大模型的计算是正确的。

智力评分：★★★

表达这里还是用大家喜闻乐见的，写高考作文来考一考星火大模型吧。

可以看到，能按字数要求，写一些陈述性的作文内容，没有什么文采可言。

表达评分：★★

在专业知识方面，星火大模型做的比较好的一个点是支持专业助手，点开“星火助手中心”，我简单数了下，已经支持几百个专业助手，涵盖各个领域。

先来体验一款产品经理助手，我让它帮我“设计一款AI社区产品”，它很快的输出了这款产品的基本功能框架，大致看了下还是比较全的。后续很多产品经理的工作效率，也会因为这些AI工具的不断完善，而大大提高。

接下来，我体验了一款“人工智能代码专家”，让它用Python帮我写一个番茄工作法计时器，星火大模型很快写了一个。我本地运行了一下，可以跑通。

整体来看，星火大模型的专业能力还是很强的，且助手中心有成百上千的现成专业助手供挑选（还支持创建个人助手并分享），对于特定任务的效率提升非常可观。

专业能力评分：★★★★★

能够记忆上下文的聊天内容，也是AI大模型的一个关键能力，试想如果你跟AI聊几句，它把前文忘了，遇到这种情况你得把之前提过的问题再提一遍，整体效率肯定会受影响。

这里我基于之前体验的“产品经理助手”，让它帮我设计一款AI社区产品，我继续让它帮我细化“用户注册与登录”模块的方案：

可以看到联系上下文，并对追问的问题进行回答，星火大模型做的也还不错。

上下文评分：★★★

从我个人的简单评测来看，星火认知大模型总分16星（满分25星，GPT-4能到23星）。在大模型能力上，跟GPT-3.5持平，略弱于谷歌的Bard（能联网还支持插件），距离GPT-4还有一段距离。希望到了10月份，星火大模型真的能赶上ChatGPT，大家拭目以待吧~

感兴趣的朋友，快去申请内测资格，免费体验一下吧~

欢迎关注公众号Glen，获取更多内容