最近使用过的AI 工具以及使用感受

812 阅读6分钟

最近看到、听到、学到、亲测到、总结到关于 GPT 为首的 AI 高效生产工具以及使用感受。

关键词:ChatGPTAPIGPT-4Copilot生成式AIVSC``Midjourney

一、以 GPT 为首的 AI 高效生产工具

1.1 New Bing

我愿称之为 GPT 加持版本的进阶搜索引擎工具,可以直接使用 New Bing 进行聊天式的检索。

1.2 ChatGPT

相比 New Bing,使用 ChatGPT 更像是挂了一个专家号。

但建议一开始给 ChatGPT 这个专家添加一个人设,学会使用“假如”,如“If you are my web design consultant, can you Balabala……?”

1.3 利用好 ChatGPT 的 API

使用 ChatGPT 的 API 可以接入后续介绍的几个高效工具,如 ChatGPT for Google,VSC。

1.4 ChatGPT for Google

在 Google 商店安装 ChatGPT for Google,还可以直接接入自己的 API,嵌入到搜索引擎中使用起来十分的方便。

1.5 VSC & ChatGPT

在 VSC 中引入 ChatGPT 中文版,同理可引入自己的 ChatGPT API 切换为国外模式,编码时可以优化代码、询问报错及寻找解决方法。

1.6 VSC & Copilot

传说中的“只写注释来生成代码”,十分高效的生产工具,简直是 Your AI pair programmer,最近开始对用户收费,但是学生使用Github认证后可免费使用(参考链接:Github学生认证及学生包保姆级申请指南),笔者使用了学信网证明+学校邮箱+Github申请,流程多少有点儿繁琐,但想想每个月省下10$也值了。

在 VSC 中使用起来很方便,大致分两种情况:

  • 撰写注释后 Ctrl + Enter:Copilot 提供十个解决方法让你选择
  • 撰写注释后直接 Enter:Copilot 会脑补你需要的代码,它真的能懂你的心!

学会使用工具很重要,过去讲究程序员要会看文档、要会使用搜索引擎,那借着生成式 AI 的火热,现在也讲究学会使用方便且高效的生产工具,如 ChatGPT、Copilot 等。

二、GPT-4 令人大为震撼

2.1 GPT 解读(简读)

  • GPT(Generative Pre-trained Transformer)
  • Generative:生成模型,生成式 AI
  • Pre-trained:预训练。
  • Transformer:基于自注意力机制的一个深度学习模型,适用于并行化计算

2.2 GPT 模型的发展历程

GPT 模型的发展历程及其参数与预训练数据量:

模型发布时间参数量预训练数据量
GPT2018 年 6 月1.17 亿约 5GB
GPT-22019 年 2 月15 亿40GB
GPT-32020 年 5 月1,750 亿45TB

2.3 GPT-4 模拟物理复杂系统中的涌现

mp.weixin.qq.com/s/Ly4_xBhAJ…

到处都充斥着 ChatGPT 以及 GPT-4 的强大力量,在上述文章中作者介绍了基于 GPT-4 模拟物理复杂系统涌现的几个模型,分别是 Vicsek 鸟群模型、XY 模型、相分离模型,并且利用 ChatGPT 协助搭建了可视化网站,就连推文本身也是使用 ChatGPT 协助生成的。

看完这篇文章,有两个小总结:

  • 一是我们不得不惊叹诸如 ChatGPT 高效率工具的出现给我们的生产生活带来了重大的影响,学会使用高效率工具是十分重要的一个步骤,也是划分和淘汰人力的一个重要手段,纵使高效率的开发工具无法短时间内快速替代人工,但趋势已经出来了,在学习过程中掌握鲜活技术与高效工具是必须经历的一个过程,也是必须得迈出的一步。
  • 二是通过这篇文章我们也发现 GPT-4 这种大语言生成模型已经可以渗入到各行各业了,并且甚至可以出色地完成一些复杂任务,通过模拟复杂系统中的涌现便是一个很经典的例子,基于 GPT XX 模型研究多学科尤其是交叉学科是一个重要的学习方向。

三、ChatGPT 原理剖析

3.1 ChatGPT 常见误解

以下本部分总结于李宏毅老师 Youtube 课堂:【生成式AI】ChatGPT 原理剖析 (1/3) — 對 ChatGPT 的常見誤解

  • 误解一:罐头式回答。认为 ChatGPT 每次回答从事先准备好的答案罐头中选择随机回复的
  • 误解二:网络搜索回复答案。认为 ChatGPT 的答案是从网络中搜寻重组的结果

按照李老师的说法,其实 ChatGPT 真正做的事情——文字接龙,其本质是一个 function,对应机器学习中的分类模型。

3.2 ChatGPT 背后的关键技术——预训练

GPT(Generative Pre-trained Transformer)中的 P 指的就是 Pre-trained 预训练。预训练过程中给模型投喂数十亿的文本数据,包括新闻文章、百科全书、小说等各种实际应用场景下的文本。通过这种方式,GPT 能够获得强大的语言理解和生成能力来执行 NLP 任务,例如机器翻译、对话生成、文本摘要等。

  • 预训练:通过标注让模型自学习
  • 督导式学习:引导结果让模型学习
  • 增强式学习:反馈机制让模型再学习

值得注意的是,ChatGPT 是一个产品,它作为产品供用户使用前肯定在输入端与输出端设置了很多的处理与优化,比如标签的过滤等;而 GPT XX 是这个产品的本质模型,基于 GPT XX 模型的技术是当前 AI 火热的现状也是未来应用的研究方向。

四、生成式 AI

4.1 生成式学习的两种策略

此部分总结于李宏毅老师 Youtube 课堂——【生成式AI】生成式學習的兩種策略:要各個擊破,還是要一次到位,关于生成式 AI 的两种策略如下:

  • 各个击破:生产速度慢、生产质量高(相对),多用于生成文字
  • 一步到位:生产速度快、生产质量低(相对),多用于生成影像

下面是李老师课堂中列出的已有且比较新潮的生成模型工作,不得不说生成式 AI 已经有点儿雨后春笋的模样了,纵使离产品应用有一段距离,但遍地开花的现象已然出现。

文本生成语音

Text-to-Voice(InstructTTS)

dongchaoyang.top/InstructTTS…

arxiv.org/abs/2301.13…

文本生成声音

Text-to-Audio(AudioLDM)

audioldm.github.io/

arxiv.org/abs/2301.12…

文本生成视频

Text-to-Video(Imagen)

imagen.research.google/video/

imagen.research.google/video/paper…

4.2 生成式 AI 与多模态

以上展示了最近尝试的一些以 GPT XX 为首的火热的 AI 工具,不难发现这些“指令式输入”模型,给我们的直观感觉就是仿佛拥有了一个可交互的机器人。GPT-4 的一个新特性是引入了多模态,具体表现在其输入端可支持多种模式内容,综合上述的一些工作和工具,不得不说 AI 交互的版图正在不断壮大。

五、一个彩蛋——Midjourney AI 绘图

使用 Midjourney 指令式进行 AI 绘图,这里提供参考链接

给他投喂一张自己的证件照,然后不要脸地输入参数指令:A handsome black-haired guy, is smiling cartoon, Pixar style

A handsome black-haired young man, is dunking basketball, Pixar style

参考链接

  1. 让GPT-4写代码,模拟物理复杂系统中的涌现
  2. ChatGPT 原理剖析 (1/3) — 對 ChatGPT 的常見誤解
  3. 生成式學習的兩種策略:要各個擊破,還是要一次到位
  4. Github学生认证及学生包保姆级申请指南