智能交互复兴:ChatGPT +终端(奔驰/Siri)= ?

5,131 阅读9分钟

原文 首发于 2023年6月19日

由近期两则智能交互上新闻展开思考:智能对话能否起死回生?

(1)ChatGPT首次进入车载交互领域

6月15日,奔驰和微软宣布扩大AI应用合作,比如将 ChatGPT继承到车载语音控制系统中。

6月16日开始,美国90万设备配备MBUX信息娱乐系统,车主可以登录应用“Mercedes Me”,通过微软Azure OpenAI服务体验ChatGPT版的车载语音助手。

图片

与上一代车载交互相比,交互更加智能,多轮会话体验更好。主题覆盖:地点信息、菜谱甚至更复杂的问题,比如:预定餐厅、电影票。

体验视频:

  • 问题1:推荐几个好玩儿的海滩

  • 问题2:海边适合哪些活动

  • 问题3:这个海滩有鲨鱼吗

  • 问题4:讲个鲨鱼的笑话

车载场景下,交互流畅,对话自然。

(2)人工智障

这种交互体验对人来说“理所当然”,然而,事实并非如此。简单回顾一个几年前的视频案例,体验下当前的车载交互有多难,机器在对话上跟人差距有多大。

2016年,一位大哥按下车里的“语音控制”按钮,想让汽车帮他打个电话。一阵甜美的AI女声响起,人类首次尝试驯服语音助手的珍贵对话诞生。

  • 甜美AI:请说出您要拨打的号码,或者说取消。

  • 大哥:135XXXX7557。

  • 因为口音问题,系统未能识别准确。大哥急了,赶忙下达第二道语音指令:纠正!纠正!

  • 系统也急了:969696……

  • 大哥更急了:纠正,纠正,不是96!

  • 大哥:口吐芬芳。

  • 系统:对不起,我没有听清。

  • 大哥带着哭腔:你耳朵聋,耳朵聋啊?我说了多少遍了我都。

  • 系统:请再说一次,请再说一次,请再说一次。

  • 大哥:我再说最后一遍啊,135……

  • 系统:对不起,再见。

图片

短短2分钟浓缩了六年前车机交互的真实体验与怨念,语音助手的糟糕印象就此埋下。

其实,不止车机交互,连智能音箱同样“智障”连连,即便有闲心的阿姨也被逼疯。

图片

完整视频:www.douyin.com/video/71123…

语音助手“听不见”、“听不清”、“听不懂”灾难级的系统表现,让人和机器总得疯一个。

2月10日的文章(ChatGPT:从入门到入行(放弃))提到几个案例:

  • 2018年 11 月,小米 AIoT(人工智能 + 物联网)开发者大会上,「雷布斯」骄傲地展示了新品智能音箱「小爱同学」。当场翻车:“你是光,你是电,你是唯一的神话。。。”

  • 2017年10月,一个Sophia的机器人四处圈粉,还被沙特阿拉伯授予了正式的公民身份。这个评价比图灵测试还要牛。后来被证实对话能力是人工控制。

  • 即便强如谷歌,也依旧束手无策,2018年,发布Duplex Demo,让Google Assistant代替用户打电话订餐。几年过去了,让然是Demo状态。

怀着对下一代人机交互模式CUI的美好憧憬,各大厂纷纷布局对话系统类应用:智能客服、智能音箱、智能外呼等等,其中智能音箱优秀代表:小米小爱、天猫精灵、百度度秘。

图片

刚开始用,很新鲜,但时间长了,就会发现又蠢又萌,语言理解能力堪忧,用户不得不跟人工智障battle,斗智斗勇,直到失去兴趣,沦为小孩子玩物。

  • “小爱同学,播放loveshot” --> “好的,为你播放拉萨”

  • “小爱同学,播放七月的风” --> “对不起,只能查询未来十五天天气情况”

即使需求最“刚”的智能客服,如今的体验也是一眼难尽,容易变身复读机,勉强借助相关问题推荐和人工客服解围。

图片

更多智障案例:

理想很美好,现实很骨感。自然语言理解的天花板一直在头顶,不管怎么跳,已有方法始终无法突破NLU这层障碍。

人工智能变身人工智障后,潮水逐渐退出。2020年后,各大厂商纷纷裁撤、缩招对话团队。

对话系统“爱”、“恨”交织:

  • 爱:终极交互形态让人着迷,CUI,甚至更高级的多模态交互、脑机交互

  • 恨:技术现实与期望鸿沟太大,智障频频。

鹤啸九天,公众号:鹤啸九天ChatGPT:从入门到入行(放弃)

(3)SmartSiri

ChatGPT作为首个通用领域端到端对话架构的成功范例, 让人重新燃起了对话交互(CUI)的希望。

除了车载助手,有人讲ChatGPT应用到Siri上,让个人助理焕然一新。

2023年6月13日,有个开发者发布“Smart Siri”,将刚升级的ChatGPT APP与Siri APP绑定,实现了个人助理质的飞跃。

当前智能助理的槽点:

  • “Siri 是人工智障”

由于 Siri 更强调在用户设备端计算,需要保护个人隐私,只能做些特定任务,比如:查天气、定闹钟;

官方的ChatGPT APP升级后,支持与Siri、快捷指令联动。

Siri 接入 ChatGPT 后,执行任务的角色就被后者接替了,想象空间变得更大。

那么,怎么接入?

  • 方法一: 快捷指令基于 ChatGPT API 接口进行 JSON 格式的发送获取,但发送和解析过程都会消耗很长时间,占用 ChatGPT key 余额。

  • 方法二: 官方 app 接口省去用户打包数据提取数据的过程,直接向 app 发送请求并获取有效信息。中间不用受网络波动、ChatGPT 用户过多、key 余额不足等因素的影响

  • 不用懂JSON 语言,不用写代码,把用户发问需求细化成小步骤,找到能实现对应任务的 app,像乐高积木一样拼起来就行了。

“Smart Siri”可直接用语音发问,对于明确的、具体的发问,提炼得更好。

  • 直接喊“Hey Siri + Smart Siri”,等待,看到“Yes”后,就能开始问问题

案例分析

  • Siri 的表现相对刻板,它仅能提供网址以及内容概括,有时会直接告知未找到相关信息,仿佛是被束缚的人工智能

  • Smart Siri 则能立即提供不错的回答,简洁明了,看起来的确挺聪明的。

案例SiriSmart Siri分析
宫保鸡丁我在网上找到了这个结果:…宫保鸡丁的正宗做法:1,2,3,…直接给出做法
光年之外有什么故事搜索光年之外信息《光年之外》是邓紫棋2016年发布的歌曲,灵感来自电影《星际穿越》…直接解答
用小红书格式写个朋友圈依旧是搜索…端午节朋友圈文案:1. 与美好生活一见“棕”情 2. 无论咸甜,阖家团圆才是最好的陷…
帮我写个毕业季微电影的拍摄脚本我在网上找到了这个结果:…拍摄脚本直接给出做法

除了手机助理,还有别的应用,比如

  • 把 iPhone 内睡眠数据(步数等健康数据)打包,让 ChatGPT 接入分析,最后生成一个“每日健康分析报告”——这个过程完全自动化。

  • 智能家居:

  • 授权chatgpt app读取家庭数据,对智能家居进行开关、自动化及预处理,对气温、温度提出有效建议

  • 跨境电商分析场景:

  • 解析电商规则,SEO优化、选品、广告优化、商品详情页优化、关键词优化、客服与售后自动化

  • 不用打开其他app,直接用Siri体温,获取答案,优化

Smart Siri 依然有不足:

  • ChatGPT 还无法实现连续对话,不过可以把之前的聊天记录粘贴进当前要问的问题里,也能间接连续问答的效果。(毕竟受数据隐私限制)

苹果在WWDC(年度开发者大会)上并未推出LLM相关应用,估计还在低调研究中,官方升级Siri后,这类问题应该会解决。

(4)AIGC应用遍地开花

大模型遍布多个应用场景

图片

由内到外,按照三层划分:模型层→模态层→应用层

  1. 模型层:文本领域(GPT系列)、图像领域(扩散模型系列)、视频、建模、多模态等

  2. 模态层:文本、语音、图像、视频、行为、理解、策略、工具等,其中文本和图像最为惊艳

  3. 应用层:智能对话、AI作画最为亮眼,传统行业正在被逐步颠覆,如搜索、问答、智能办公、内容创作,同时,应用商场、互联网、数字人等也被波及

目前,大家都在关注点集中在模型层:如何快速复现ChatGPT,做出自己的大模型。

等大模型基建完成后,重心将转移到应用层,如何借助大模型完成已有新业务的重塑升级,以及开拓新场景。

短短几个月时间,大语言模型为代表的AIGC,跨越式变异,影响了大片行业,“涌现”出了无数惊艳的产品应用。

预计今后还会有无数个应用案例蹦出来,令人惊艳,智能对话能否复兴,拭目以待。