如何评价GPT-4o由于GPT最近在圈内又火了一把。许多人都在转发OpenAI昨晚发布的GPT4o的直播视频和相关报道

由于GPT最近在圈内又火了一把。 许多人都在转发OpenAI昨晚发布的GPT4o的直播视频和相关报道，对GPT4o在文字、语音和视频等方面的多模态功能感到惊叹，甚至有人认为这是超级AI的来临。

出于对AI技术发展的好奇，我也抽时间看了OpenAI发布GPT4o的直播视频，更忍不住写几句我的个人看法，供大家参考。所谓，外行看热闹，内行看门道。客观的讲，看完该视频以后，我个人觉得，从场景演示的效果看，GPT4o确实做得不错，但是，还不至于让人惊掉下巴，更谈不上超级AI来了，顶多算是为GPT4装上了眼睛和嘴巴，使GPT从“类人脑AI”变成了“类人头AI”。因为，从本质上看，GPT4o只是一个不错的实现了自然语言AI、声学AI和视觉AI集成创新的产品，使人机交互体验变得更加自然、流畅。除此之外，其它方面的原始创新、颠覆创新感觉还是非常有限。我想，这应该就是为什么此次OPENAI的发布会叫OpenAI Spring Update，为什么这次发布的GPT版本不叫GPT5，而叫GPT4o的主要原因吧。

比如：

从自然语言AI看， 逻辑推理、翻译、做题、情感分析、代码分析、图表分析等功能都是GPT4原有的功能，只是GPT4o这个版本训练、调试得更好，除此之外，没看到什么其它大的创新点。

从视觉AI看， 通过摄像头识别人、场景、公式和文字的技术，也早就有了，只需集成应用，确实没看到什么其它大的创新点。如果非说创新点，那么，我只看到1个，就是GPT4o能通过手机摄像头识别人的情绪，其本质是在视觉AI算法上做了创新。

从声学AI看， ASR语音识别技术与TTS语音合成技术是很早就有的技术，只需集成应用。AI播放音乐也只是集成调用了第三方音乐播放器的API，谈不上什么大的创新。如果非说创新点，我主要看到4点：

一是GPT4o人机对话的延时几乎没有，流畅性很好，不像文心一言等国产AI产品，提问后，AI需要等几秒才回复，有时我都误以为AI卡壳了。

二是GPT4o能实现与多人进行对话，以前的很多声学AI都只能实现1对1的对话。

三是在人机对话场景下，人能随时打断GPT4o的讲话，场景体验非常好，像跟真人语音聊天一样。以前的很多声学AI要么只能等机器讲完人再讲，要么需要人工用手点屏幕等操作才能打断AI的讲话。

四是GPT4o能通过语音识别人的情绪，并能根据要求合成带有情感的语音与人类进行交流。

当然，如果中国做出的AI产品不如GPT4o好，主要原因可能有2点：

一可能是科研人员的心态比较浮躁，急功尽利，精力主要用于解决有没有，而不是专注于产品做得好不好。

二可能是在自然语言AI、声学AI和视觉AI方面的基础能力不够扎实，集成在一起无法开成真正的能力。

综上所述

我们应该理性对待OpenAI的GPT4o。它是一个集成创新的优秀AI产品，但并非高不可攀。中国的AI企业只要潜心研究，也能迅速开发出类似的产品。因此，GPT4o的免费发布也是合理的。