AI 大模型概念入门(未完,更新中)

104 阅读2分钟

LLM

大模型,Large Language Model

openAI大模型生态:

文本、代码、对话、语音、图像领域一系列模型。 目前多模态大模型,都是基于语言类大模型进行的开发。

  • 语言模型:chatGPT3/3.5/4 (谷歌PaLM2 models 4个)
  • 图像大模型: DALL.E
  • 语音识别模型:whisper (为数不多开源的)
  • 文本向量模型:Embedding文本嵌入模型
  • 审查模型:moderation模型
  • 编程大模型:codex大模型deprecated(集成于vscode/github copilot等)

开源大模型

除了openAI大模型,还有很多开源的大模型。

需要掌握哪些大模型

  1. 效果好、生态丰富、功能齐全的openAI大模型组
  2. 掌握目前中文效果最好、最后潜力、最具备多模态功能的开源大模型 - chatGLM 6B & visualGLM 6B

大模型微调方法

第一类方法:借助OpenAI的在线微调工具进行微调; 第二类方法:借助开源微调框架进行微调。

高效微调方法:LoRA

产品

Magnific AI(2人) 使用卡房的Stable Diffusion模型。 (护城河:每当用户提高一个Creativity度,生成图会出现更多创造性的点)

NLP

自然语言处理。 每个词都是一个低纬向量,而以前都是符号代表。

神经网络基础

全称人工神经网络 Artificial Neuro Network。

基本组成元素:

  • 一个神经元:树突input,轴突output。
  • 单层神经网络:多个神经元,多个output。
  • 多层神经网络:多层神经元。

训练方式:

  • 计算方差,离散度
  • 词向量,Word2Vec

举个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y),这里 x 是词语,y 是它们的词性,我们要构建 f(x)->y 的映射,但这里的数学模型 f(比如神经网络、SVM)只接受数值型输入,而 NLP 里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入( word embedding) 的一种。 因为现代计算机的架构处理向量数据比较快(乘法和加法),所以物理世界的各种输入形态都想办法转换成各种维度的向量,方便计算机计算

神经网络结构:

  • 循环神经网络 (RNN)
  • 门控循环单元 (GRU)
  • 长短期记忆网络 (LSTM)
  • 双向神经网络(RNN)
  • 卷积神经网络 (CNN) pytorch训练模型。

Transformer

  • Attention机制,解决信息瓶颈的问题