ChatGPT大更新：多模态将上线，能说会看了9月25日，OpenAI在其官网宣布目前正在推出ChatGPT的新版本，除

9月25日，OpenAI在其官网宣布目前正在推出ChatGPT的新版本，除了通过常见的文本框交互外，现在它正在学会以新的方式理解人类的问题，比如看图、听声音、输出语音等。

OpenAI 将在接下来的两周内向 Plus 和 Enterprise 用户推出新的语音和图像功能。另外语音功能也将在 iOS 和 Android 上推出（可在设置中选择加入），而图像功能将在所有平台上推出。

▍ 如何使用新语音和图像功能？

“语音和图像功能，将为你在生活中使用 ChatGPT 提供更多选择方式。”为了证明新功能的实用性，OpenAI 列举了一些例子：

· 旅行时，拍下地标性建筑的照片，然后与 ChatGPT 聊聊其有趣之处；

· 在家时，拍下冰箱和储藏室的照片，让 ChatGPT 想出晚餐的菜谱；

· 晚饭后，帮孩子做一道数学题，拍下照片并圈出问题，让 ChatGPT 给出提示并帮助孩子解决问题。

通过语音与 ChatGPT 对话

据介绍，ChatGPT 新增的语音功能由一个「文本转语音的模型」来提供支持，能够仅通过文本和几秒钟的语音样本生成“类似人类的音频”，OpenAI 也请了专业配音演员合作创作了 5 种声音。与此同时，OpenAI 还用了其开源语音识别系统 Whisper 将语音转录为文本。

因此整体上来说，ChatGPT 的这个语音功能，使用方法跟手机上的语音助手类似，即用户点击按钮说话，ChatGPT 就会自动将其转换为文本，然后生成对应回答并将其转为语音。

如果你想使用语音功能，可以在手机的 ChatGPT App 的“设置”中找到“新功能”，选择“语音对话”后，点击屏幕右上角的耳机按钮，即可从 5 种不同的声音中选择你最喜欢的声音，进行来回对话。

▎例如：

让ChatGPT听一段小猫咪的文本故事，然后选择人类语音便可以一键完成转录。完成后，用户可以下载这段语音。

在聊天中，用图像向 ChatGPT 提问

想使用 ChatGPT 图像功能的用户，可点击照片按钮拍照或选择本地图片，如果你使用的是 iOS 或 Android 系统，可点击加号按钮进行选择。

OpenAI 表示，新增的图像功能由「多模态GPT-3.5 和 GPT-4 模型」来提供支持，可将语言推理能力应用于各种图像，如照片、屏幕截图以及包含文字和图像的文档。该功能上线后，用户可在提问中向 ChatGPT 展示一张或多张图片。如果想让 ChatGPT 注意到图片中的特定部分，也可以使用 App 中的绘图工具进行标注。

▎例如：

拍照发给ChatGPT并向它提问：如何降低自行车座？

ChatGPT给了5个步骤的解决方案，告诉你操作快拆杆，或者拧螺丝进行调低。

如果你不确定调整的是否是快拆杆，还可以圈出来发给ChatGPT看一下，它会告诉你是还是不是，并成功帮你找到。

最牛的是，你还可以把自己的工具箱拍给ChatGPT，让它来告诉你使用哪些工具。我们都说大模型会改变所有应用的形态，现在，ChatGPT 又在变革的路上迈进了一大步。