ChatGPT重磅升级:可以看 图、说话,几秒钟制作出逼真 的合成语音

86 阅读3分钟

ChatGPT重磅升级:可以看 图、说话,几秒钟制作出逼真 的合成语音!

OpenAI官网9月25日消息,OpenAI宣布在接下来的两周 内,将在ChatGPT中向Plus和Enterprise用户推出语音和 图像。语音将在iOS和Android上推出(在您的设置中选择 加入),图像将在所有平台上提供。

image.png

用语音与ChatGPT交流

语音输入功能类似于手机上的语音助手,用户只需按下一个按钮,说出自己的问题,ChatGPT 就会将其转换为文本,然后生成答案,再将答案转换为语音,播放给用户。

image.png

例如,让ChatGPT听一段小猫咪的文本故事,然后选择人类语音便可以一键完成转录。完成后,用户可以下载这段语音。

image.png

OpenAI称,这项新的语音技术能够从几秒钟的真实语音中制作出逼真的合成语音,为许多有创意和无障碍的应用打开了大门。然而,这些功能也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。OpenAI 表示,这种模型不会被广泛开放,而是会受到严格的控制和限制。

图像输入功能:可以向ChatGPT提问图片

图像输入功能则类似于 Google Lens,用户可以拍摄自己感兴趣的事物,并上传到 ChatGPT 中。ChatGPT会尝试识别用户想要询问的内容,并给出相应的回答。用户还可以用应用中的绘图工具来帮助表达自己的问题,或者配合语音或文本输入来进行交流。

用户可以向ChatGPT展示一张或多张图片,提问相关的问题。例如,发送一张坏掉的烧烤炉图片,然后询问无法启动原因;拍摄一张冰箱中的食材,询问多种菜品制作方案

带视觉的GPT-4(GPT-4V)使用户能够指示GPT-4分析用户提供的图像输入,OpenAI称,这是我们广泛提供的最新功能。将额外的模态(如图像输入)纳入大型语言模型(LLM)被一些人视为人工智能研究和开发的关键前沿。多模式LLM提供了一种可能性,即通过新颖的接口和功能扩大纯语言系统的影响,使其能够解决新任务,并为用户提供新颖的体验。在该系统卡中,我们分析了GPT-4V的安全特性。我们在GPT-4V安全方面的工作建立在GPT-4的基础上,在这里我们深入研究了专门针对图像输入所做的评估、准备和缓解工作。

基于视觉的模型也带来了新的挑战,从对人的幻觉到在高风险领域依赖模型对图像的解释。在进行更广泛的部署之前,我们与红色团队成员一起测试了该模型在极端主义和科学熟练度等领域的风险,以及一组不同的阿尔法测试人员。我们的研究使我们能够在几个关键细节上保持一致,以便负责任地使用。

OpenAI还放出了一段视频,是和ChatGPT商量着修自行车,不断问 ChatGPT:这里是扳手吗?是调整这里吗?甚至还把说明书拍照发给ChatGPT求解释。

image.png

OpenAI表示还采取了技术措施,大幅限制了ChatGPT分析和直接陈述他人的能力,因为ChatGPT并不总是准确的,这些系统应该尊重个人隐私。

国内好用的gpt有哪些呢?可以看我的第一篇文章国内的好用的GPT