ChatGPT发布语音和图像能力重大更新：要点解读、应用畅想与原文翻译刚刚，ChatGPT发布重大更新，支持语音和图像，

ChatGPT发布语音和图像能力重大更新：要点解读、应用畅想与原文翻译

刚刚，ChatGPT发布重大更新，支持语音和图像，释放多模态能力！

openai.com/blog/chatgp…

发布要点

详细的翻译见第三部分，现总结要点如下：

ChatGPT新功能：OpenAI为ChatGPT推出了语音和图像功能，使用户可以与其进行语音对话和分享图片。
使用场景：
- 语音：在移动设备上与ChatGPT进行语音对话，如询问问题或听取故事。
- 图像：分享图片以获取相关信息，如家居设计建议或食谱推荐。
技术细节：
- 语音功能由新的文本转语音模型和Whisper语音识别系统支持。
- 图像功能由多模态GPT-3.5和GPT-4支持。
安全与隐私：OpenAI强调了新功能的安全性和隐私问题，特别是在处理用户提供的图像时。
推出计划：这些新功能将在接下来的两周内向Plus和Enterprise用户推出，并计划在之后向其他用户群体推广。

应用畅想

在文字、语音、图像等多模态能力的加持下，我们可以畅想的应用场景包括：

纯文字 (Text Only)
- 在线教育辅导：学生可以通过文字提问，获取答案和解释。
- 客户支持：用户提出问题或反馈，系统提供解决方案或答复。
- 创意写作：用户提供主题，系统生成故事或文章。
- 研究助手：研究人员询问特定领域的问题，系统提供相关信息。
- 日常助手：用户询问天气、新闻或其他日常信息。
纯语音 (Voice Only)
- 语音助手：用户通过语音提问，系统用语音回答，如智能音箱。
- 语言学习：用户用语音询问单词发音，系统回复正确发音。
- 有声书：用户请求特定故事或文章，系统进行朗读。
- 冥想指导：系统提供冥想或放松指导，用户跟随操作。
- 健康咨询：用户描述症状，系统提供可能的建议或提醒看医生。
纯图片 (Image Only)
- 艺术鉴赏：用户上传艺术品图片，系统提供相关信息和背景。
- 家居设计建议：用户上传房间图片，系统提供布置和设计建议。
- 植物/动物识别：用户上传植物或动物的图片，系统识别并提供信息。
- 食谱建议：用户上传冰箱食材图片，系统提供可能的食谱建议。
- 时尚搭配：用户上传服装图片，系统提供搭配建议。
文字 + 语音 (Text & Voice)
- 外语学习：用户用文字提问，系统用目标语言语音回答。
- 故事创作：用户提供文字提示，系统用语音生成故事。
- 音乐推荐：用户描述喜欢的音乐风格，系统用语音推荐歌曲。
- 旅行建议：用户描述旅行偏好，系统用语音提供旅行建议。
- 健身指导：用户描述健身目标，系统用语音提供锻炼建议。
文字 + 图片 (Text & Image)
- 教育辅导：学生上传题目图片，系统用文字提供答案。
- DIY指导：用户上传手工或DIY项目图片，系统提供文字指导。
- 家居修理：用户上传损坏物品图片，系统提供修复建议。
- 化妆建议：用户上传自己的照片，系统提供化妆和打扮建议。
- 旅行日志：用户上传旅行照片，系统用文字描述和提供背景信息。
语音 + 图片 (Voice & Image)
- 医疗咨询：用户描述症状并上传相关图片，系统用语音提供建议。
- 烹饪指导：用户上传食材图片并描述，系统用语音提供烹饪方法。
- 户外活动建议：用户上传户外环境图片并描述，系统提供活动建议。
- 植物养护：用户上传植物图片并描述其状态，系统提供养护建议。
- 家居布置：用户上传房间图片并描述偏好，系统用语音提供布置建议。
文字 + 语音 + 图片 (Text, Voice & Image)
- 多媒体学习：学生上传题目图片，描述问题，系统用文字和语音解答。
- 旅行规划：用户上传目的地图片，描述偏好，系统用文字和语音提供行程建议。
- 健康管理：用户上传饮食图片，描述健康目标，系统提供饮食和锻炼建议。
- 家庭活动建议：用户上传家庭成员照片，描述活动偏好，系统提供活动建议。
- 宠物护理：用户上传宠物照片，描述宠物状态，系统用文字和语音提供护理建议。

这只是随便想想就能想得到的场景，更多、更有意思的应用会很快涌现，让我们拭目以待，持续关注。

原文翻译

下面是原文的中文翻译。

ChatGPT现在可以“看”、“听”和“说”了

我们正在逐步推出ChatGPT的新的语音和图像功能。这些功能为您提供了一种全新、更直观的交互方式，允许您与ChatGPT进行语音对话或向其展示您所讨论的内容。

语音和图像为您提供了更多使用ChatGPT的方式。在旅行时拍摄一个地标的照片，实时讨论它的有趣之处。回到家后，拍摄冰箱和食品储藏室的照片，确定晚餐吃什么（并询问后续问题以获取的食谱）。晚餐后，帮助您的孩子解决数学问题，拍摄照片，圈出问题集，然后与您共同分享提示。

在接下来的两周内，我们将为Plus和Enterprise用户推出ChatGPT的语音和图像功能。iOS和Android上将推出语音功能（在设置中选择加入），所有平台都将提供图像功能。

与ChatGPT对话并听到其回应

您现在可以使用语音与助手进行对话。在路上与它交谈，为家人请求一个睡前故事，或解决餐桌上的争论。

要开始使用语音，请转到移动应用中的设置 → 新功能，并选择加入语音对话。然后，点击主屏幕右上角的耳机按钮，并从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持，该模型能够从简短的样本语音中生成类似人类的音频。我们与专业配音演员合作创建了每一个声音。我们还使用了我们的开源语音识别系统Whisper，将您的语音转化为文本。

关于图像的聊天

您现在可以向ChatGPT展示一张或多张图片。解决您的烧烤器无法启动的问题，探索冰箱的内容来计划一顿饭，或分析工作相关数据的复杂图表。要关注图像的特定部分，您可以在我们的移动应用中使用绘图工具。

要开始，请点击照片按钮捕捉或选择图像。如果您使用的是iOS或Android，首先点击加号按钮。您还可以讨论多张图片或使用我们的绘图工具来指导助手。

图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于各种图像，如照片、屏幕截图和包含文本和图像的文档。

我们正在逐步部署图像和语音功能

OpenAI的目标是构建安全且有益的AGI。我们相信逐步提供我们的工具，这使我们能够随着时间的推移进行改进和完善风险缓解措施，同时为未来更强大的系统做好准备。对于涉及语音和视觉的先进模型，这种策略变得更为重要。

语音

新的语音技术——能够从简短的真实语音中制作出真实的合成声音——为许多创意和以可访问性为中心的应用打开了大门。但是，这些功能也带来了新的风险，例如潜在的恶意行为者冒充公众人物或进行欺诈。

这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员创建的。我们还以类似的方式与其他人合作。例如，Spotify正在使用这项技术的能力为他们的语音翻译功能进行试点，该功能帮助播客者通过用播客者自己的声音将播客翻译成其他语言，扩大他们的故事叙述的受众范围。

图像输入

基于视觉的模型也带来了新的挑战，从对人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前，我们在极端主义和科学熟练度等领域对模型进行了红队测试，并与一组多样化的alpha测试者进行了测试。我们的研究使我们能够就负责任使用的几个关键细节达成一致。

使视觉既有用又安全

与其他ChatGPT功能一样，视觉是关于协助您的日常生活。当它能看到您看到的东西时，它的效果最好。

这种方法直接受到了我们与Be My Eyes的合作的启发，这是一个为盲人和视力障碍者提供的免费移动应用，以了解使用和限制。用户告诉我们，他们发现与包含背景中的人的图像进行一般对话是有价值的，例如当您试图弄清楚遥控器设置时，有人出现在电视上。

我们还采取了技术措施，大大限制了ChatGPT分析和直接评论人的能力，因为ChatGPT并不总是准确的，这些系统应该尊重个人的隐私。

实际使用和反馈将帮助我们更好地完善这些安全措施，同时保持工具的实用性。

模型限制的透明度

用户可能会依赖ChatGPT处理专业主题，例如在研究领域。我们对模型的局限性持开放态度，并劝阻在没有适当验证的情况下使用高风险用例。此外，该模型擅长转录英文文本，但对某些其他语言，特别是那些使用非罗马字母的语言，表现不佳。我们建议非英语用户不要使用ChatGPT进行此类任务。

您可以在图像输入的系统卡片中阅读更多关于我们的安全方法和与Be My Eyes的合作。

我们将扩大访问权限

Plus和Enterprise用户将在接下来的两周内体验到语音和图像功能。在此之后，我们很高兴能将这些功能推广到其他用户群体，包括开发者。

【完】

【往期文章】

GitHub Copilot深度剖析：一个AI产品的性能提升、成本控制与效果评估

LangChain系列-01 是什么

LangChain系列-02. LLM基础

LangChain系列-03. LLM聊天模型

ChatGPT发布语音和图像能力重大更新：要点解读、应用畅想与原文翻译

** **

发布要点

** **

应用畅想

原文翻译