ChatGPT大更新:多模态将上线,能说会看了

352 阅读3分钟

9月25日,OpenAI在其官网宣布目前正在推出ChatGPT的新版本,除了通过常见的文本框交互外,现在它正在学会以新的方式理解人类的问题,比如看图、听声音、输出语音等。

OpenAI 将在接下来的两周内向 Plus 和 Enterprise 用户推出新的语音和图像功能。另外语音功能也将在 iOS 和 Android 上推出(可在设置中选择加入),而图像功能将在所有平台上推出。

图片

如何使用新语音和图像功能?

“语音和图像功能,将为你在生活中使用 ChatGPT 提供更多选择方式。”为了证明新功能的实用性,OpenAI 列举了一些例子:

· 旅行时,拍下地标性建筑的照片,然后与 ChatGPT 聊聊其有趣之处;

·  在家时,拍下冰箱和储藏室的照片,让 ChatGPT 想出晚餐的菜谱;

·  晚饭后,帮孩子做一道数学题,拍下照片并圈出问题,让 ChatGPT 给出提示并帮助孩子解决问题。

通过语音与 ChatGPT 对话

据介绍,ChatGPT 新增的语音功能由一个「文本转语音的模型」来提供支持,能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”,OpenAI 也请了专业配音演员合作创作了 5 种声音。与此同时,OpenAI 还用了其开源语音识别系统 Whisper 将语音转录为文本。

因此整体上来说,ChatGPT 的这个语音功能,使用方法跟手机上的语音助手类似,即用户点击按钮说话,ChatGPT 就会自动将其转换为文本,然后生成对应回答并将其转为语音。

图片

如果你想使用语音功能,可以在手机的 ChatGPT App 的“设置”中找到“新功能”,选择“语音对话”后,点击屏幕右上角的耳机按钮,即可从 5 种不同的声音中选择你最喜欢的声音,进行来回对话。

图片

▎例如:

让ChatGPT听一段小猫咪的文本故事,然后选择人类语音便可以一键完成转录。完成后,用户可以下载这段语音。

在聊天中,用图像向 ChatGPT 提问

想使用 ChatGPT 图像功能的用户,可点击照片按钮拍照或选择本地图片,如果你使用的是 iOS 或 Android 系统,可点击加号按钮进行选择。

OpenAI 表示,新增的图像功能由「 多模态GPT-3.5 和 GPT-4 模型」来提供支持,可将语言推理能力应用于各种图像,如照片、屏幕截图以及包含文字和图像的文档。该功能上线后,用户可在提问中向 ChatGPT 展示一张或多张图片。如果想让 ChatGPT 注意到图片中的特定部分,也可以使用 App 中的绘图工具进行标注。

图片

▎例如:

拍照发给ChatGPT并向它提问:如何降低自行车座?

ChatGPT给了5个步骤的解决方案,告诉你操作快拆杆,或者拧螺丝进行调低。

如果你不确定调整的是否是快拆杆,还可以圈出来发给ChatGPT看一下,它会告诉你是还是不是,并成功帮你找到。

图片

最牛的是,你还可以把自己的工具箱拍给ChatGPT,让它来告诉你使用哪些工具。我们都说大模型会改变所有应用的形态,现在,ChatGPT 又在变革的路上迈进了一大步。