ChatGPT发布语音和图像能力重大更新:要点解读、应用畅想与原文翻译
刚刚,ChatGPT发布重大更新,支持语音和图像,释放多模态能力!
** **
发布要点
详细的翻译见第三部分,现总结要点如下:
- ChatGPT新功能:OpenAI为ChatGPT推出了语音和图像功能,使用户可以与其进行语音对话和分享图片。
- 使用场景:
-
- 语音:在移动设备上与ChatGPT进行语音对话,如询问问题或听取故事。
- 图像:分享图片以获取相关信息,如家居设计建议或食谱推荐。
- 技术细节:
-
- 语音功能由新的文本转语音模型和Whisper语音识别系统支持。
- 图像功能由多模态GPT-3.5和GPT-4支持。
- 安全与隐私:OpenAI强调了新功能的安全性和隐私问题,特别是在处理用户提供的图像时。
- 推出计划:这些新功能将在接下来的两周内向Plus和Enterprise用户推出,并计划在之后向其他用户群体推广。
** **
应用畅想
在文字、语音、图像等多模态能力的加持下,我们可以畅想的应用场景包括:
- 纯文字 (Text Only)
- 在线教育辅导:学生可以通过文字提问,获取答案和解释。
- 客户支持:用户提出问题或反馈,系统提供解决方案或答复。
- 创意写作:用户提供主题,系统生成故事或文章。
- 研究助手:研究人员询问特定领域的问题,系统提供相关信息。
- 日常助手:用户询问天气、新闻或其他日常信息。
- 纯语音 (Voice Only)
- 语音助手:用户通过语音提问,系统用语音回答,如智能音箱。
- 语言学习:用户用语音询问单词发音,系统回复正确发音。
- 有声书:用户请求特定故事或文章,系统进行朗读。
- 冥想指导:系统提供冥想或放松指导,用户跟随操作。
- 健康咨询:用户描述症状,系统提供可能的建议或提醒看医生。
- 纯图片 (Image Only)
- 艺术鉴赏:用户上传艺术品图片,系统提供相关信息和背景。
- 家居设计建议:用户上传房间图片,系统提供布置和设计建议。
- 植物/动物识别:用户上传植物或动物的图片,系统识别并提供信息。
- 食谱建议:用户上传冰箱食材图片,系统提供可能的食谱建议。
- 时尚搭配:用户上传服装图片,系统提供搭配建议。
- 文字 + 语音 (Text & Voice)
- 外语学习:用户用文字提问,系统用目标语言语音回答。
- 故事创作:用户提供文字提示,系统用语音生成故事。
- 音乐推荐:用户描述喜欢的音乐风格,系统用语音推荐歌曲。
- 旅行建议:用户描述旅行偏好,系统用语音提供旅行建议。
- 健身指导:用户描述健身目标,系统用语音提供锻炼建议。
- 文字 + 图片 (Text & Image)
- 教育辅导:学生上传题目图片,系统用文字提供答案。
- DIY指导:用户上传手工或DIY项目图片,系统提供文字指导。
- 家居修理:用户上传损坏物品图片,系统提供修复建议。
- 化妆建议:用户上传自己的照片,系统提供化妆和打扮建议。
- 旅行日志:用户上传旅行照片,系统用文字描述和提供背景信息。
- 语音 + 图片 (Voice & Image)
- 医疗咨询:用户描述症状并上传相关图片,系统用语音提供建议。
- 烹饪指导:用户上传食材图片并描述,系统用语音提供烹饪方法。
- 户外活动建议:用户上传户外环境图片并描述,系统提供活动建议。
- 植物养护:用户上传植物图片并描述其状态,系统提供养护建议。
- 家居布置:用户上传房间图片并描述偏好,系统用语音提供布置建议。
- 文字 + 语音 + 图片 (Text, Voice & Image)
- 多媒体学习:学生上传题目图片,描述问题,系统用文字和语音解答。
- 旅行规划:用户上传目的地图片,描述偏好,系统用文字和语音提供行程建议。
- 健康管理:用户上传饮食图片,描述健康目标,系统提供饮食和锻炼建议。
- 家庭活动建议:用户上传家庭成员照片,描述活动偏好,系统提供活动建议。
- 宠物护理:用户上传宠物照片,描述宠物状态,系统用文字和语音提供护理建议。
这只是随便想想就能想得到的场景,更多、更有意思的应用会很快涌现,让我们拭目以待,持续关注。
原文翻译
下面是原文的中文翻译。
ChatGPT现在可以“看”、“听”和“说”了
我们正在逐步推出ChatGPT的新的语音和图像功能。这些功能为您提供了一种全新、更直观的交互方式,允许您与ChatGPT进行语音对话或向其展示您所讨论的内容。
语音和图像为您提供了更多使用ChatGPT的方式。在旅行时拍摄一个地标的照片,实时讨论它的有趣之处。回到家后,拍摄冰箱和食品储藏室的照片,确定晚餐吃什么(并询问后续问题以获取的食谱)。晚餐后,帮助您的孩子解决数学问题,拍摄照片,圈出问题集,然后与您共同分享提示。
在接下来的两周内,我们将为Plus和Enterprise用户推出ChatGPT的语音和图像功能。iOS和Android上将推出语音功能(在设置中选择加入),所有平台都将提供图像功能。
与ChatGPT对话并听到其回应
您现在可以使用语音与助手进行对话。在路上与它交谈,为家人请求一个睡前故事,或解决餐桌上的争论。
要开始使用语音,请转到移动应用中的设置 → 新功能,并选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,并从五种不同的声音中选择您喜欢的声音。
新的语音功能由新的文本转语音模型提供支持,该模型能够从简短的样本语音中生成类似人类的音频。我们与专业配音演员合作创建了每一个声音。我们还使用了我们的开源语音识别系统Whisper,将您的语音转化为文本。
关于图像的聊天
您现在可以向ChatGPT展示一张或多张图片。解决您的烧烤器无法启动的问题,探索冰箱的内容来计划一顿饭,或分析工作相关数据的复杂图表。要关注图像的特定部分,您可以在我们的移动应用中使用绘图工具。
要开始,请点击照片按钮捕捉或选择图像。如果您使用的是iOS或Android,首先点击加号按钮。您还可以讨论多张图片或使用我们的绘图工具来指导助手。
图像理解由多模态GPT-3.5和GPT-4提供支持。这些模型将其语言推理技能应用于各种图像,如照片、屏幕截图和包含文本和图像的文档。
我们正在逐步部署图像和语音功能
OpenAI的目标是构建安全且有益的AGI。我们相信逐步提供我们的工具,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时为未来更强大的系统做好准备。对于涉及语音和视觉的先进模型,这种策略变得更为重要。
语音
新的语音技术——能够从简短的真实语音中制作出真实的合成声音——为许多创意和以可访问性为中心的应用打开了大门。但是,这些功能也带来了新的风险,例如潜在的恶意行为者冒充公众人物或进行欺诈。
这就是为什么我们使用这项技术来支持特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员创建的。我们还以类似的方式与其他人合作。例如,Spotify正在使用这项技术的能力为他们的语音翻译功能进行试点,该功能帮助播客者通过用播客者自己的声音将播客翻译成其他语言,扩大他们的故事叙述的受众范围。
图像输入
基于视觉的模型也带来了新的挑战,从对人的幻觉到在高风险领域依赖模型的图像解释。在更广泛的部署之前,我们在极端主义和科学熟练度等领域对模型进行了红队测试,并与一组多样化的alpha测试者进行了测试。我们的研究使我们能够就负责任使用的几个关键细节达成一致。
使视觉既有用又安全
与其他ChatGPT功能一样,视觉是关于协助您的日常生活。当它能看到您看到的东西时,它的效果最好。
这种方法直接受到了我们与Be My Eyes的合作的启发,这是一个为盲人和视力障碍者提供的免费移动应用,以了解使用和限制。用户告诉我们,他们发现与包含背景中的人的图像进行一般对话是有价值的,例如当您试图弄清楚遥控器设置时,有人出现在电视上。
我们还采取了技术措施,大大限制了ChatGPT分析和直接评论人的能力,因为ChatGPT并不总是准确的,这些系统应该尊重个人的隐私。
实际使用和反馈将帮助我们更好地完善这些安全措施,同时保持工具的实用性。
模型限制的透明度
用户可能会依赖ChatGPT处理专业主题,例如在研究领域。我们对模型的局限性持开放态度,并劝阻在没有适当验证的情况下使用高风险用例。此外,该模型擅长转录英文文本,但对某些其他语言,特别是那些使用非罗马字母的语言,表现不佳。我们建议非英语用户不要使用ChatGPT进行此类任务。
您可以在图像输入的系统卡片中阅读更多关于我们的安全方法和与Be My Eyes的合作。
我们将扩大访问权限
Plus和Enterprise用户将在接下来的两周内体验到语音和图像功能。在此之后,我们很高兴能将这些功能推广到其他用户群体,包括开发者。
【完】
【往期文章】