LLM
大模型,Large Language Model
openAI大模型生态:
文本、代码、对话、语音、图像领域一系列模型。 目前多模态大模型,都是基于语言类大模型进行的开发。
- 语言模型:chatGPT3/3.5/4 (谷歌PaLM2 models 4个)
- 图像大模型: DALL.E
- 语音识别模型:whisper (为数不多开源的)
- 文本向量模型:Embedding文本嵌入模型
- 审查模型:moderation模型
- 编程大模型:codex大模型deprecated(集成于vscode/github copilot等)
开源大模型
除了openAI大模型,还有很多开源的大模型。
-
huggingface性能评估榜: huggingface.co/spaces/Hugg… 其中,Falcon,号称史上最强大模型。
-
全球开源大模型性能榜. MSYS组织 (UC伯克利背景): LLM Leaderboard地址: chat.Imsys.org/?arena
需要掌握哪些大模型
- 效果好、生态丰富、功能齐全的openAI大模型组
- 掌握目前中文效果最好、最后潜力、最具备多模态功能的开源大模型 - chatGLM 6B & visualGLM 6B
大模型微调方法
第一类方法:借助OpenAI的在线微调工具进行微调; 第二类方法:借助开源微调框架进行微调。
高效微调方法:LoRA
产品
Magnific AI(2人) 使用卡房的Stable Diffusion模型。 (护城河:每当用户提高一个Creativity度,生成图会出现更多创造性的点)
NLP
自然语言处理。 每个词都是一个低纬向量,而以前都是符号代表。
神经网络基础
全称人工神经网络 Artificial Neuro Network。
基本组成元素:
- 一个神经元:树突input,轴突output。
- 单层神经网络:多个神经元,多个output。
- 多层神经网络:多层神经元。
训练方式:
- 计算方差,离散度
- 词向量,Word2Vec
举个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y),这里 x 是词语,y 是它们的词性,我们要构建 f(x)->y 的映射,但这里的数学模型 f(比如神经网络、SVM)只接受数值型输入,而 NLP 里的词语,是人类的抽象总结,是符号形式的(比如中文、英文、拉丁文等等),所以需要把他们转换成数值形式,或者说——嵌入到一个数学空间里,这种嵌入方式,就叫词嵌入(word embedding),而 Word2vec,就是词嵌入( word embedding) 的一种。 因为现代计算机的架构处理向量数据比较快(乘法和加法),所以物理世界的各种输入形态都想办法转换成各种维度的向量,方便计算机计算
神经网络结构:
- 循环神经网络 (RNN)
- 门控循环单元 (GRU)
- 长短期记忆网络 (LSTM)
- 双向神经网络(RNN)
- 卷积神经网络 (CNN) pytorch训练模型。
Transformer
- Attention机制,解决信息瓶颈的问题