科大讯飞出品 | 讯飞星火大模型评测

747 阅读4分钟

AI“千模大战”如火如荼,科大讯飞作为国内知名的智能语音和人工智能企业,必然不甘落后,于今年5月份宣布推出“讯飞星火认知大模型”,并且在6月8号发布了一轮大更新,最让我感兴趣的是讯飞星火号称计划于10月24日对标ChatGPT。近期我也获得了星火大模型的体验资格,今天跟大家分享一下评测结果。

图片

讯飞星火大模型简介

讯飞星火大模型是科大讯飞推出的新一代认知智能大模型,拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。

感兴趣的朋友,可以通过以下链接访问「星火」内测官网,申请体验资格:

xinghuo.xfyun.cn/

图片

拥有体验资格后,进入体验,即可看到星火大模型界面,接下来我们也会按照之前评测大模型的标准:错误辨识、智力、表达、专业知识、上下文记忆等方面对它进行综合评测。

图片

错误辨识

错误识别能力是构建可信赖AI的核心元素,对于常识问题,AI会不会胡说八道,这一点很重要。为此,我提了两个问题“猪为什么会在天上飞?”,以及忽悠瘸了很多人的“1+1在什么情况下等于3?”。

图片

可以看到星火的错误辨识能力还是比较靠谱的,不会硬拗。

错误辨识评分:★★★

智力

人工智能最重要的智力部分,我准备用我国古代著名的《孙子算经》里的余数计算问题来提问星火模型。

图片

问题:现在有一堆物品堆在那儿,不知道具体数量是多少,如果每三个作为一组来数的话,最后会剩下两个;如果每五个作为一组来数的话,最后会剩下三个;如果每七个作为一组来数的话,最后也会剩下两个。那么这堆物品到底数量是多少呢?

图片

可以看到星火大模型的计算是正确的。

智力评分:★★★

表达

表达这里还是用大家喜闻乐见的,写高考作文来考一考星火大模型吧。

图片

可以看到,能按字数要求,写一些陈述性的作文内容,没有什么文采可言。

表达评分:★★

专业知识

在专业知识方面,星火大模型做的比较好的一个点是支持专业助手,点开“星火助手中心”,我简单数了下,已经支持几百个专业助手,涵盖各个领域。

图片

先来体验一款产品经理助手,我让它帮我“设计一款AI社区产品”,它很快的输出了这款产品的基本功能框架,大致看了下还是比较全的。后续很多产品经理的工作效率,也会因为这些AI工具的不断完善,而大大提高。

图片

接下来,我体验了一款“人工智能代码专家”,让它用Python帮我写一个番茄工作法计时器,星火大模型很快写了一个。我本地运行了一下,可以跑通。

图片

整体来看,星火大模型的专业能力还是很强的,且助手中心有成百上千的现成专业助手供挑选(还支持创建个人助手并分享),对于特定任务的效率提升非常可观。

专业能力评分:★★★★★

上下文记忆

能够记忆上下文的聊天内容,也是AI大模型的一个关键能力,试想如果你跟AI聊几句,它把前文忘了,遇到这种情况你得把之前提过的问题再提一遍,整体效率肯定会受影响。

这里我基于之前体验的“产品经理助手”,让它帮我设计一款AI社区产品,我继续让它帮我细化“用户注册与登录”模块的方案:

图片

可以看到联系上下文,并对追问的问题进行回答,星火大模型做的也还不错。

上下文评分:★★★

综合评价

从我个人的简单评测来看,星火认知大模型总分16星(满分25星,GPT-4能到23星)。在大模型能力上,跟GPT-3.5持平,略弱于谷歌的Bard(能联网还支持插件),距离GPT-4还有一段距离。希望到了10月份,星火大模型真的能赶上ChatGPT,大家拭目以待吧~

感兴趣的朋友,快去申请内测资格,免费体验一下吧~

欢迎关注公众号Glen,获取更多内容