如何评价GPT-4o

86 阅读3分钟

由于GPT最近在圈内又火了一把。 许多人都在转发OpenAI昨晚发布的GPT4o的直播视频和相关报道,对GPT4o在文字、语音和视频等方面的多模态功能感到惊叹,甚至有人认为这是超级AI的来临。

出于对AI技术发展的好奇,我也抽时间看了OpenAI发布GPT4o的直播视频,更忍不住写几句我的个人看法,供大家参考。所谓,外行看热闹,内行看门道。客观的讲,看完该视频以后,我个人觉得,从场景演示的效果看,GPT4o确实做得不错,但是,还不至于让人惊掉下巴,更谈不上超级AI来了,顶多算是为GPT4装上了眼睛和嘴巴,使GPT从“类人脑AI”变成了“类人头AI”。因为,从本质上看,GPT4o只是一个不错的实现了自然语言AI、声学AI和视觉AI集成创新的产品,使人机交互体验变得更加自然、流畅。除此之外,其它方面的原始创新、颠覆创新感觉还是非常有限。我想,这应该就是为什么此次OPENAI的发布会叫OpenAI Spring Update,为什么这次发布的GPT版本不叫GPT5,而叫GPT4o的主要原因吧。

比如:

从自然语言AI看, 逻辑推理、翻译、做题、情感分析、代码分析、图表分析等功能都是GPT4原有的功能,只是GPT4o这个版本训练、调试得更好,除此之外,没看到什么其它大的创新点。

从视觉AI看, 通过摄像头识别人、场景、公式和文字的技术,也早就有了,只需集成应用,确实没看到什么其它大的创新点。如果非说创新点,那么,我只看到1个,就是GPT4o能通过手机摄像头识别人的情绪,其本质是在视觉AI算法上做了创新。

从声学AI看, ASR语音识别技术与TTS语音合成技术是很早就有的技术,只需集成应用。AI播放音乐也只是集成调用了第三方音乐播放器的API,谈不上什么大的创新。如果非说创新点,我主要看到4点:

一是GPT4o人机对话的延时几乎没有,流畅性很好,不像文心一言等国产AI产品,提问后,AI需要等几秒才回复,有时我都误以为AI卡壳了。

二是GPT4o能实现与多人进行对话,以前的很多声学AI都只能实现1对1的对话。

三是在人机对话场景下,人能随时打断GPT4o的讲话,场景体验非常好,像跟真人语音聊天一样。以前的很多声学AI要么只能等机器讲完人再讲,要么需要人工用手点屏幕等操作才能打断AI的讲话。

四是GPT4o能通过语音识别人的情绪,并能根据要求合成带有情感的语音与人类进行交流。

当然,如果中国做出的AI产品不如GPT4o好,主要原因可能有2点:

一可能是科研人员的心态比较浮躁,急功尽利,精力主要用于解决有没有,而不是专注于产品做得好不好。

二可能是在自然语言AI、声学AI和视觉AI方面的基础能力不够扎实,集成在一起无法开成真正的能力。

综上所述

我们应该理性对待OpenAI的GPT4o。它是一个集成创新的优秀AI产品,但并非高不可攀。中国的AI企业只要潜心研究,也能迅速开发出类似的产品。因此,GPT4o的免费发布也是合理的。