极智AI | 语音是亮点,讯飞星火认知大模型能力几何

48 阅读4分钟

欢迎关注我的公众号 [极智视界],获取我的更多经验分享

大家好,我是极智视界,本文来谈谈 语音是亮点,讯飞星火认知大模型能力几何。

邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码下载,链接:t.zsxq.com/0aiNxERDq

5月6日,也就是前天下午,全程观看了科大讯飞星火认知大模型的发布会,并申请体验了一下认知大模型,整体感受就是:语音是亮点,没有多模态,整体挺好的

大家知道,科大讯飞本身就是立足于语音的,而认知大模型和讯飞自家的语音能力完美结合,这比现在市面上任何一个大模型都要出色。还有一个印象比较深刻的是,认知大模型的演示都是现场进行的 (不像之间百度的文心一言是采用录屏的),通过现场语音的输入,然后识别成文字再喂给大模型,这种真实的交互让整体的发布会效果明显好于百度和阿里云。

语言大模型有的能力就不再老生常谈了,测评也不做展示了,有兴趣的同学可以直接跳转到认知大模型的官网体验,认知大模型的邀测机制应该是最宽松的,很容易就能申请到体验 (相比之下,我现在还没拿到阿里通义前问的邀请码)。平台的整体界面长这样:

星火认知对标其他大模型,除了多模态外该有的能力都有,优势体现在语音上。在发布会上,讯飞老板其实也坦言,认知大模型的编程能力目前还有限,跟GPT相比有比较大的差距,是认知大模型后续改进的重点方向。

除此之外,认知大模型还有几个特点,首先对于使用体验来说,认知大模型的回答吐字很快,甚至可以称之为流畅,同样对比文心一言,甚至ChatGPT来说,认知的回答吐字真是太快了。猜测讯飞可能在大模型的剪枝压缩、模型部署加速上下了一些功夫,这会让用户体验好感提升。

然后同样还是语音,认知大模型在获得文字输出后,还可以选择用语言进行朗读。讯飞本身就有很强的语音合成能力,把这个能力用在这里简直就是"恰到好处"。可以看到可以选择中文的女声、男生,以及借助 Luna 和 Gavin 说出英文,而且是发音很自然、很标准的那种。

认知大模型的这种 语音输入 -> 认知大模型(AI大脑) -> 语言输出 的模式很容易就能商业化,这不,在铺垫了差不多两个多小时的认知发布会的最后,讯飞推出了 AI学习机。这个学习机的特点就十分明显,用户可以语音输入 (符合小孩张嘴问问题的习惯),然后认知大模型进行处理(应该是云上的计算),接着可以用标准又自然的中文或英文的人声输出,回答问题。这样,完美切合这个教学交互的实际应用场景。

所以整体来说,这个发布会的整体设计就比较好,花了大多时间宣传了星火认知大模型 (确实效果不错),铺垫铺垫,最后带个货,结束。

正是由于讯飞星火的语音能力过于出色,所以似乎让大家忽视了它多模态能力、编程能力的欠缺,不过没关系,这个语音能力已经够惊艳了,对于其他不足,行 则将至

好了,以上分享了谈谈 语音是亮点,讯飞星火认知大模型能力几何。希望我的分享能对你的学习有一点帮助。



 【公众号传送】

《极智AI | 语音是亮点,讯飞星火认知大模型能力几何》


畅享人工智能的科技魅力,让好玩的AI项目不难玩。邀请您加入我的知识星球, 星球内我精心整备了大量好玩的AI项目,皆以工程源码形式开放使用,涵盖人脸、检测、分割、多模态、AIGC、自动驾驶、工业等。不敢说会对你学习有所帮助,但一定非常好玩,并持续更新更加有趣的项目。 t.zsxq.com/0aiNxERDq

logo_show.gif