ChatGPT 现在可以看、听和说

178 阅读3分钟

image.png 看完 GPT4 首次开发者大会,真的感觉很兴奋。短短的45分钟,屠杀了很多创业公司,但是同时也给了很多人一些很大的想象空间。

  1. 128K的上下文,使用者可以做更多的事情。
  2. 更好的控制;可以通过JSON返回数据,使得开发者使用起来更加方便,而不用再做过多数据结果的兼容。
  3. 最新知识更新到 2023年4月。它真的已经学完了人类全部的知识!

上面三点做的一些优化就异常炸裂了。在接下GPT开放的api相关的内容真的,让我感受了到一点,硅基生命已经有个眼、耳、嘴巴。真的太赞了。

GPT的眼睛 👀

模型名称:gpt-4-vision-preview

使用文档:platform.openai.com/docs/guides…

相关调用示例:

import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: 'My API Key', // defaults to process.env["OPENAI_API_KEY"]
});

async function main() {
  const response = await openai.chat.completions.create({
    model: "gpt-4-vision-preview",
    messages: [
      {
        role: "user",
        content: [
          { type: "text", text: "What’s in this image?" },
          {
            type: "image_url",
            image_url: {
              "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
            },
          },
        ],
      },
    ],
  });
  console.log(response.choices[0]);
}
main();

下面是有人利用 gpt-4-vision-preview 构建了一个利用手绘图转html的视频。作为web开发者,我感受到了深深地危机感;感兴趣的可以看下这个视频:www.bilibili.com/video/BV1xc…

GPT的耳朵👂

模型:whisper-1

  1. 将音频转录为音频的任何语言。
  2. 将音频翻译并转录为英语。

使用文档:platform.openai.com/docs/guides…

相关调用示例:

import fs from "fs";
import OpenAI from "openai";

const openai = new OpenAI({
  apiKey: 'My API Key', // defaults to process.env["OPENAI_API_KEY"]
});

async function main() {
  const transcription = await openai.audio.transcriptions.create({
    file: fs.createReadStream("audio.mp3"),
    model: "whisper-1",
  });

  console.log(transcription.text);
}
main();

它有很多的应用场景,音频转文字、会议纪要、实时字幕翻译等等场景均可以用的上。 推荐一个仓库。

github.com/Jordans2299…

里面写了whisper的应用,并用了ffmpeg来是实现万能音频录。有很大的启发性。建议可以看下。

GPT的嘴巴

模型:tts-1

音频 API 基于 TTS(文本转语音)模型提供文本转语音终结点 speech 。它带有 6 种内置语音,可用于:

  • 叙述书面博客文章
  • 生成多种语言的语音音频
  • 使用流式传输提供实时音频输出

使用文档:platform.openai.com/docs/guides…

话说 GPT 的气泡音真的太赞了。

相关调用示例:

import fs from "fs";
import path from "path";
import OpenAI from "openai";

const openai = new OpenAI();

const speechFile = path.resolve("./speech.mp3");

async function main() {
  const mp3 = await openai.audio.speech.create({
    model: "tts-1",
    voice: "alloy",
    input: "Today is a wonderful day to build something people love!",
  });
  console.log(speechFile);
  const buffer = Buffer.from(await mp3.arrayBuffer());
  await fs.promises.writeFile(speechFile, buffer);
}
main();

利用上面的三个模型,GPT真的已经为硅基生命提供了强大基础五官。 下面是官方一个很有趣的实例:

使用 GPT 的视觉功能和 TTS API 处理和叙述视频

cookbook.openai.com/examples/gp…

image.png

它最终利用GPT实现了对该视频的视频解说太赞了。

人工智能将会成为下一次的社会革命。这个时代有想法的人太重要了,未来社会需要有创造性、颠覆性想法的人才能成为更好的在这个社会中生存。

期望文章能帮到大家。