看完 GPT4 首次开发者大会,真的感觉很兴奋。短短的45分钟,屠杀了很多创业公司,但是同时也给了很多人一些很大的想象空间。
- 128K的上下文,使用者可以做更多的事情。
- 更好的控制;可以通过JSON返回数据,使得开发者使用起来更加方便,而不用再做过多数据结果的兼容。
- 最新知识更新到 2023年4月。它真的已经学完了人类全部的知识!
上面三点做的一些优化就异常炸裂了。在接下GPT开放的api相关的内容真的,让我感受了到一点,硅基生命已经有个眼、耳、嘴巴。真的太赞了。
GPT的眼睛 👀
模型名称:gpt-4-vision-preview
使用文档:platform.openai.com/docs/guides…
相关调用示例:
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: 'My API Key', // defaults to process.env["OPENAI_API_KEY"]
});
async function main() {
const response = await openai.chat.completions.create({
model: "gpt-4-vision-preview",
messages: [
{
role: "user",
content: [
{ type: "text", text: "What’s in this image?" },
{
type: "image_url",
image_url: {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
},
},
],
},
],
});
console.log(response.choices[0]);
}
main();
下面是有人利用 gpt-4-vision-preview 构建了一个利用手绘图转html的视频。作为web开发者,我感受到了深深地危机感;感兴趣的可以看下这个视频:www.bilibili.com/video/BV1xc…
GPT的耳朵👂
模型:whisper-1
- 将音频转录为音频的任何语言。
- 将音频翻译并转录为英语。
使用文档:platform.openai.com/docs/guides…
相关调用示例:
import fs from "fs";
import OpenAI from "openai";
const openai = new OpenAI({
apiKey: 'My API Key', // defaults to process.env["OPENAI_API_KEY"]
});
async function main() {
const transcription = await openai.audio.transcriptions.create({
file: fs.createReadStream("audio.mp3"),
model: "whisper-1",
});
console.log(transcription.text);
}
main();
它有很多的应用场景,音频转文字、会议纪要、实时字幕翻译等等场景均可以用的上。 推荐一个仓库。
里面写了whisper的应用,并用了ffmpeg来是实现万能音频录。有很大的启发性。建议可以看下。
GPT的嘴巴
模型:tts-1
音频 API 基于 TTS(文本转语音)模型提供文本转语音终结点 speech 。它带有 6 种内置语音,可用于:
- 叙述书面博客文章
- 生成多种语言的语音音频
- 使用流式传输提供实时音频输出
使用文档:platform.openai.com/docs/guides…
话说 GPT 的气泡音真的太赞了。
相关调用示例:
import fs from "fs";
import path from "path";
import OpenAI from "openai";
const openai = new OpenAI();
const speechFile = path.resolve("./speech.mp3");
async function main() {
const mp3 = await openai.audio.speech.create({
model: "tts-1",
voice: "alloy",
input: "Today is a wonderful day to build something people love!",
});
console.log(speechFile);
const buffer = Buffer.from(await mp3.arrayBuffer());
await fs.promises.writeFile(speechFile, buffer);
}
main();
利用上面的三个模型,GPT真的已经为硅基生命提供了强大基础五官。 下面是官方一个很有趣的实例:
使用 GPT 的视觉功能和 TTS API 处理和叙述视频
cookbook.openai.com/examples/gp…
它最终利用GPT实现了对该视频的视频解说太赞了。
人工智能将会成为下一次的社会革命。这个时代有想法的人太重要了,未来社会需要有创造性、颠覆性想法的人才能成为更好的在这个社会中生存。
期望文章能帮到大家。