ChatGPT发布语音和图像能力重大更新:要点解读、应用畅想与原文翻译

242 阅读10分钟

ChatGPT发布语音和图像能力重大更新:要点解读、应用畅想与原文翻译

刚刚,ChatGPT发布重大更新,支持语音和图像,释放多模态能力!

openai.com/blog/chatgp…

图片


** **

发布要点

详细的翻译见第三部分,现总结要点如下:

  1. ChatGPT新功能:OpenAI为ChatGPT推出了语音和图像功能,使用户可以与其进行语音对话和分享图片。
  2. 使用场景:
    • 语音:在移动设备上与ChatGPT进行语音对话,如询问问题或听取故事。
    • 图像:分享图片以获取相关信息,如家居设计建议或食谱推荐。
  3. 技术细节:
    • 语音功能由新的文本转语音模型和Whisper语音识别系统支持。
    • 图像功能由多模态GPT-3.5和GPT-4支持。
  4. 安全与隐私:OpenAI强调了新功能的安全性和隐私问题,特别是在处理用户提供的图像时。
  5. 推出计划:这些新功能将在接下来的两周内向Plus和Enterprise用户推出,并计划在之后向其他用户群体推广。

** **

应用畅想

在文字、语音、图像等多模态能力的加持下,我们可以畅想的应用场景包括:

  1. 纯文字 (Text Only)
    • 在线教育辅导:学生可以通过文字提问,获取答案和解释。
    • 客户支持:用户提出问题或反馈,系统提供解决方案或答复。
    • 创意写作:用户提供主题,系统生成故事或文章。
    • 研究助手:研究人员询问特定领域的问题,系统提供相关信息。
    • 日常助手:用户询问天气、新闻或其他日常信息。
  2. 纯语音 (Voice Only)
    • 语音助手:用户通过语音提问,系统用语音回答,如智能音箱。
    • 语言学习:用户用语音询问单词发音,系统回复正确发音。
    • 有声书:用户请求特定故事或文章,系统进行朗读。
    • 冥想指导:系统提供冥想或放松指导,用户跟随操作。
    • 健康咨询:用户描述症状,系统提供可能的建议或提醒看医生。
  3. 纯图片 (Image Only)
    • 艺术鉴赏:用户上传艺术品图片,系统提供相关信息和背景。
    • 家居设计建议:用户上传房间图片,系统提供布置和设计建议。
    • 植物/动物识别:用户上传植物或动物的图片,系统识别并提供信息。
    • 食谱建议:用户上传冰箱食材图片,系统提供可能的食谱建议。
    • 时尚搭配:用户上传服装图片,系统提供搭配建议。
  4. 文字 + 语音 (Text & Voice)
    • 外语学习:用户用文字提问,系统用目标语言语音回答。
    • 故事创作:用户提供文字提示,系统用语音生成故事。
    • 音乐推荐:用户描述喜欢的音乐风格,系统用语音推荐歌曲。
    • 旅行建议:用户描述旅行偏好,系统用语音提供旅行建议。
    • 健身指导:用户描述健身目标,系统用语音提供锻炼建议。
  5. 文字 + 图片 (Text & Image)
    • 教育辅导:学生上传题目图片,系统用文字提供答案。
    • DIY指导:用户上传手工或DIY项目图片,系统提供文字指导。
    • 家居修理:用户上传损坏物品图片,系统提供修复建议。
    • 化妆建议:用户上传自己的照片,系统提供化妆和打扮建议。
    • 旅行日志:用户上传旅行照片,系统用文字描述和提供背景信息。
  6. 语音 + 图片 (Voice & Image)
    • 医疗咨询:用户描述症状并上传相关图片,系统用语音提供建议。
    • 烹饪指导:用户上传食材图片并描述,系统用语音提供烹饪方法。
    • 户外活动建议:用户上传户外环境图片并描述,系统提供活动建议。
    • 植物养护:用户上传植物图片并描述其状态,系统提供养护建议。
    • 家居布置:用户上传房间图片并描述偏好,系统用语音提供布置建议。
  7. 文字 + 语音 + 图片 (Text, Voice & Image)
    • 多媒体学习:学生上传题目图片,描述问题,系统用文字和语音解答。
    • 旅行规划:用户上传目的地图片,描述偏好,系统用文字和语音提供行程建议。
    • 健康管理:用户上传饮食图片,描述健康目标,系统提供饮食和锻炼建议。
    • 家庭活动建议:用户上传家庭成员照片,描述活动偏好,系统提供活动建议。
    • 宠物护理:用户上传宠物照片,描述宠物状态,系统用文字和语音提供护理建议。

这只是随便想想就能想得到的场景,更多、更有意思的应用会很快涌现,让我们拭目以待,持续关注。


原文翻译

下面是原文的中文翻译。

ChatGPT现在可以“看”、“听”和“说”了

我们正在逐步推出ChatGPT的新的语音和图像功能。这些功能为您提供了一种全新、更直观的交互方式,允许您与ChatGPT进行语音对话或向其展示您所讨论的内容。

语音和图像为您提供了更多使用ChatGPT的方式。在旅行时拍摄一个地标的照片,实时讨论它的有趣之处。回到家后,拍摄冰箱和食品储藏室的照片,确定晚餐吃什么(并询问后续问题以获取的食谱)。晚餐后,帮助您的孩子解决数学问题,拍摄照片,圈出问题集,然后与您共同分享提示。

在接下来的两周内,我们将为Plus和Enterprise用户推出ChatGPT的语音和图像功能。iOS和Android上将推出语音功能(在设置中选择加入),所有平台都将提供图像功能。

与ChatGPT对话并听到其回应

您现在可以使用语音与助手进行对话。在路上与它交谈,为家人请求一个睡前故事,或解决餐桌上的争论。

要开始使用语音,请转到移动应用中的设置 → 新功能,并选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,并从五种不同的声音中选择您喜欢的声音。

新的语音功能由新的文本转语音模型提供支持,该模型能够从简短的样本语音中生成类似人类的音频。我们与专业配音演员合作创建了每一个声音。我们还使用了我们的开源语音识别系统Whisper,将您的语音转化为文本。

关于图像的聊天

您现在可以向ChatGPT展示一张或多张图片。解决您的烧烤器无法启动的问题,探索冰箱的内容来计划一顿饭,或分析工作相关数据的复杂图表。要关注图像的特定部分,您可以在我们的移动应用中使用绘图工具。

要开始,请点击照片按钮捕捉或选择图像。如果您使用的是iOS或Android,首先点击加号按钮。您还可以讨论多张图片或使用我们的绘图工具来指导助手。

图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于各种图像,如照片、屏幕截图和包含文本和图像的文档。

我们正在逐步部署图像和语音功能

OpenAI的目标是构建安全且有益的AGI。我们相信逐步提供我们的工具,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时为未来更强大的系统做好准备。对于涉及语音和视觉的先进模型,这种策略变得更为重要。

语音

新的语音技术——能够从简短的真实语音中制作出真实的合成声音——为许多创意和以可访问性为中心的应用打开了大门。但是,这些功能也带来了新的风险,例如潜在的恶意行为者冒充公众人物或进行欺诈。

这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员创建的。我们还以类似的方式与其他人合作。例如,Spotify正在使用这项技术的能力为他们的语音翻译功能进行试点,该功能帮助播客者通过用播客者自己的声音将播客翻译成其他语言,扩大他们的故事叙述的受众范围。

图像输入

基于视觉的模型也带来了新的挑战,从对人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前,我们在极端主义和科学熟练度等领域对模型进行了红队测试,并与一组多样化的alpha测试者进行了测试。我们的研究使我们能够就负责任使用的几个关键细节达成一致。

使视觉既有用又安全

与其他ChatGPT功能一样,视觉是关于协助您的日常生活。当它能看到您看到的东西时,它的效果最好。

这种方法直接受到了我们与Be My Eyes的合作的启发,这是一个为盲人和视力障碍者提供的免费移动应用,以了解使用和限制。用户告诉我们,他们发现与包含背景中的人的图像进行一般对话是有价值的,例如当您试图弄清楚遥控器设置时,有人出现在电视上。

我们还采取了技术措施,大大限制了ChatGPT分析和直接评论人的能力,因为ChatGPT并不总是准确的,这些系统应该尊重个人的隐私。

实际使用和反馈将帮助我们更好地完善这些安全措施,同时保持工具的实用性。

模型限制的透明度

用户可能会依赖ChatGPT处理专业主题,例如在研究领域。我们对模型的局限性持开放态度,并劝阻在没有适当验证的情况下使用高风险用例。此外,该模型擅长转录英文文本,但对某些其他语言,特别是那些使用非罗马字母的语言,表现不佳。我们建议非英语用户不要使用ChatGPT进行此类任务。

您可以在图像输入的系统卡片中阅读更多关于我们的安全方法和与Be My Eyes的合作。

我们将扩大访问权限

Plus和Enterprise用户将在接下来的两周内体验到语音和图像功能。在此之后,我们很高兴能将这些功能推广到其他用户群体,包括开发者。

【完】


【往期文章】

GitHub Copilot深度剖析:一个AI产品的性能提升、成本控制与效果评估

LangChain系列-01 是什么

LangChain系列-02. LLM基础

LangChain系列-03. LLM聊天模型