原文 首发于 2023年6月19日
由近期两则智能交互上新闻展开思考:智能对话能否起死回生?
(1)ChatGPT首次进入车载交互领域
6月15日,奔驰和微软宣布扩大AI应用合作,比如将 ChatGPT继承到车载语音控制系统中。
6月16日开始,美国90万设备配备MBUX信息娱乐系统,车主可以登录应用“Mercedes Me”,通过微软Azure OpenAI服务体验ChatGPT版的车载语音助手。
与上一代车载交互相比,交互更加智能,多轮会话体验更好。主题覆盖:地点信息、菜谱甚至更复杂的问题,比如:预定餐厅、电影票。
体验视频:
-
问题1:推荐几个好玩儿的海滩
-
问题2:海边适合哪些活动
-
问题3:这个海滩有鲨鱼吗
-
问题4:讲个鲨鱼的笑话
车载场景下,交互流畅,对话自然。
(2)人工智障
这种交互体验对人来说“理所当然”,然而,事实并非如此。简单回顾一个几年前的视频案例,体验下当前的车载交互有多难,机器在对话上跟人差距有多大。
2016年,一位大哥按下车里的“语音控制”按钮,想让汽车帮他打个电话。一阵甜美的AI女声响起,人类首次尝试驯服语音助手的珍贵对话诞生。
-
甜美AI:请说出您要拨打的号码,或者说取消。
-
大哥:135XXXX7557。
-
因为口音问题,系统未能识别准确。大哥急了,赶忙下达第二道语音指令:纠正!纠正!
-
系统也急了:969696……
-
大哥更急了:纠正,纠正,不是96!
-
大哥:口吐芬芳。
-
系统:对不起,我没有听清。
-
大哥带着哭腔:你耳朵聋,耳朵聋啊?我说了多少遍了我都。
-
系统:请再说一次,请再说一次,请再说一次。
-
大哥:我再说最后一遍啊,135……
-
系统:对不起,再见。
短短2分钟浓缩了六年前车机交互的真实体验与怨念,语音助手的糟糕印象就此埋下。
其实,不止车机交互,连智能音箱同样“智障”连连,即便有闲心的阿姨也被逼疯。
完整视频:www.douyin.com/video/71123…
语音助手“听不见”、“听不清”、“听不懂”灾难级的系统表现,让人和机器总得疯一个。
2月10日的文章(ChatGPT:从入门到入行(放弃))提到几个案例:
-
2018年 11 月,小米 AIoT(人工智能 + 物联网)开发者大会上,「雷布斯」骄傲地展示了新品智能音箱「小爱同学」。当场翻车:“你是光,你是电,你是唯一的神话。。。”
-
2017年10月,一个Sophia的机器人四处圈粉,还被沙特阿拉伯授予了正式的公民身份。这个评价比图灵测试还要牛。后来被证实对话能力是人工控制。
-
即便强如谷歌,也依旧束手无策,2018年,发布Duplex Demo,让Google Assistant代替用户打电话订餐。几年过去了,让然是Demo状态。
怀着对下一代人机交互模式CUI的美好憧憬,各大厂纷纷布局对话系统类应用:智能客服、智能音箱、智能外呼等等,其中智能音箱优秀代表:小米小爱、天猫精灵、百度度秘。
刚开始用,很新鲜,但时间长了,就会发现又蠢又萌,语言理解能力堪忧,用户不得不跟人工智障battle,斗智斗勇,直到失去兴趣,沦为小孩子玩物。
-
“小爱同学,播放loveshot” --> “好的,为你播放拉萨”
-
“小爱同学,播放七月的风” --> “对不起,只能查询未来十五天天气情况”
即使需求最“刚”的智能客服,如今的体验也是一眼难尽,容易变身复读机,勉强借助相关问题推荐和人工客服解围。
更多智障案例:
-
知乎专题:见过哪些人工智障,www.zhihu.com/question/65…
理想很美好,现实很骨感。自然语言理解的天花板一直在头顶,不管怎么跳,已有方法始终无法突破NLU这层障碍。
人工智能变身人工智障后,潮水逐渐退出。2020年后,各大厂商纷纷裁撤、缩招对话团队。
对话系统“爱”、“恨”交织:
爱:终极交互形态让人着迷,CUI,甚至更高级的多模态交互、脑机交互
恨:技术现实与期望鸿沟太大,智障频频。
鹤啸九天,公众号:鹤啸九天ChatGPT:从入门到入行(放弃)
(3)SmartSiri
ChatGPT作为首个通用领域端到端对话架构的成功范例, 让人重新燃起了对话交互(CUI)的希望。
除了车载助手,有人讲ChatGPT应用到Siri上,让个人助理焕然一新。
2023年6月13日,有个开发者发布“Smart Siri”,将刚升级的ChatGPT APP与Siri APP绑定,实现了个人助理质的飞跃。
当前智能助理的槽点:
- “Siri 是人工智障”
由于 Siri 更强调在用户设备端计算,需要保护个人隐私,只能做些特定任务,比如:查天气、定闹钟;
官方的ChatGPT APP升级后,支持与Siri、快捷指令联动。
Siri 接入 ChatGPT 后,执行任务的角色就被后者接替了,想象空间变得更大。
那么,怎么接入?
-
方法一: 快捷指令基于 ChatGPT API 接口进行 JSON 格式的发送获取,但发送和解析过程都会消耗很长时间,占用 ChatGPT key 余额。
-
方法二: 官方 app 接口省去用户打包数据提取数据的过程,直接向 app 发送请求并获取有效信息。中间不用受网络波动、ChatGPT 用户过多、key 余额不足等因素的影响
-
不用懂JSON 语言,不用写代码,把用户发问需求细化成小步骤,找到能实现对应任务的 app,像乐高积木一样拼起来就行了。
“Smart Siri”可直接用语音发问,对于明确的、具体的发问,提炼得更好。
- 直接喊“Hey Siri + Smart Siri”,等待,看到“Yes”后,就能开始问问题
案例分析
-
Siri 的表现相对刻板,它仅能提供网址以及内容概括,有时会直接告知未找到相关信息,仿佛是被束缚的人工智能
-
Smart Siri 则能立即提供不错的回答,简洁明了,看起来的确挺聪明的。
| 案例 | Siri | Smart Siri | 分析 |
|---|---|---|---|
| 宫保鸡丁 | 我在网上找到了这个结果:… | 宫保鸡丁的正宗做法:1,2,3,… | 直接给出做法 |
| 光年之外有什么故事 | 搜索光年之外信息 | 《光年之外》是邓紫棋2016年发布的歌曲,灵感来自电影《星际穿越》… | 直接解答 |
| 用小红书格式写个朋友圈 | 依旧是搜索… | 端午节朋友圈文案:1. 与美好生活一见“棕”情 2. 无论咸甜,阖家团圆才是最好的陷… | |
| 帮我写个毕业季微电影的拍摄脚本 | 我在网上找到了这个结果:… | 拍摄脚本 | 直接给出做法 |
除了手机助理,还有别的应用,比如
-
把 iPhone 内睡眠数据(步数等健康数据)打包,让 ChatGPT 接入分析,最后生成一个“每日健康分析报告”——这个过程完全自动化。
-
智能家居:
-
授权chatgpt app读取家庭数据,对智能家居进行开关、自动化及预处理,对气温、温度提出有效建议
-
跨境电商分析场景:
-
解析电商规则,SEO优化、选品、广告优化、商品详情页优化、关键词优化、客服与售后自动化
-
不用打开其他app,直接用Siri体温,获取答案,优化
Smart Siri 依然有不足:
- ChatGPT 还无法实现连续对话,不过可以把之前的聊天记录粘贴进当前要问的问题里,也能间接连续问答的效果。(毕竟受数据隐私限制)
苹果在WWDC(年度开发者大会)上并未推出LLM相关应用,估计还在低调研究中,官方升级Siri后,这类问题应该会解决。
(4)AIGC应用遍地开花
大模型遍布多个应用场景
由内到外,按照三层划分:模型层→模态层→应用层
-
模型层:文本领域(GPT系列)、图像领域(扩散模型系列)、视频、建模、多模态等
-
模态层:文本、语音、图像、视频、行为、理解、策略、工具等,其中文本和图像最为惊艳
-
应用层:智能对话、AI作画最为亮眼,传统行业正在被逐步颠覆,如搜索、问答、智能办公、内容创作,同时,应用商场、互联网、数字人等也被波及
目前,大家都在关注点集中在模型层:如何快速复现ChatGPT,做出自己的大模型。
等大模型基建完成后,重心将转移到应用层,如何借助大模型完成已有新业务的重塑升级,以及开拓新场景。
短短几个月时间,大语言模型为代表的AIGC,跨越式变异,影响了大片行业,“涌现”出了无数惊艳的产品应用。
预计今后还会有无数个应用案例蹦出来,令人惊艳,智能对话能否复兴,拭目以待。