[笔记][大模型学习]01-AI领域基础概念

143 阅读5分钟
  • AI,NL/NLU/NLG
  • 机器学习:学习方法,拟合评估
  • 神经网络:CNN,RNN,Transformer,BERT架构简介
  • LLM,Generative AI
  • OpenAI及其他常用大模型介绍演示
  • 参数详解:max_tokens,temperature,n,top_p,presence_enalty,frequency_penalty
  • Python开发环境说明,Apifox导入项目

什么是AI

AI人工智能是一种使机器能够模拟人类智能的技术,通过机器学习,深度学习算法,使得计算机具备学习,推理,自我修正和解决问题等功能。

AI发展非常迅猛。

让AI懂我们的语言 NLP vs NLU vs NLG

监督学习

分类

回归

关联规则

无监督学习

聚类

强化学习

核心概念

  • 状态
  • 奖励
  • 智能体

强化学习的过程

  • 观察
  • 选择动作
  • 执行动作
  • 获取反馈
  • 更新策略

一个简单的例子:

  • 玩具汽车学习走迷宫

机器学习效果评估

  • 欠拟合
  • 最佳拟合
  • 过拟合

深度学习

输入层

隐藏层

输出层

神经网络

神经网络的基本概念

  • 节点
  • 连接

浅层神经网络

浅层神经网络是指包含少量隐藏层(通常只有一个隐藏层)的一种神经网络。

深度神经网络

深度神经网络则包含多个隐藏层,层数较多,使其能够捕捉数据的复杂模式和高级特征。深度神经网络被用来处理更复杂,规模更大的任务,比如图像识别,自动驾驶,自然语言处理。

总结

  • 浅层神经网络
    • 结构:

CNN(卷积神经网络)

卷积神经网络是一种特别设计用来处理具有类似网格结构的数据的深度学习模型,例如图像。在最简单的术语中,CNN通过模拟我们人类的视觉系统工作来帮助计算机看懂图像或其他类似数据。

  • 卷积层
  • 池化层
  • 全连接层

RNN(循环神经网络)

循环神经网络(RNN)是一种专为处理序列数据(如文字,语音或任何连续的时间数据)而设计的神经网络。与传统神经网络不同,RNN能处理输入之间的时间动态关系,使其特别适用于哪些需要理解时间序列数据或上下文信息的场景。

基本工作原理

如何理解RNN

  • 记忆功能
  • 参数共享
  • 输出依赖

输入层

隐藏层

输出层

总结

通过输入层接收并转换数据,隐藏层处理并记忆序列中的信息,最后输出层根据隐藏层的信息做出决策,RNN能有效地处理序列数据。这种结构使得RNN在语言模型,股票预测,语音识别等众多需要理解序列数据的上下文的任务中表现优异。

Transformer

Transformer是一种深度学习模型,于2017年被引入,主要用于处理序列数据如文本。

Transformer的核心优势在于其能同时处理输入序列的所有部分,这大大加快了训练过程并提高了模型处理长距离依赖的能力。

四个核心组件:

自注意力机制(Self-Attention)

多头注意力(Multi-Head Attention)

位置编码(Positional Encoding)

前馈网络(Feed-Forward Networks)

BERT

BERT(Bidirectional Encoder Representations from Transformers)是一种基于Transformer模型的深度学习技术,用于自然语言处理。BERT的主要创新之一是它的双向训练,即同时考虑文本中每个词的左侧和右侧上下文。这样的设计使得BERT在理解文本的复杂语义方面表现出色。

理解BERT的关键组价:

  • 基于Transformer的架构
  • 双向上下文理解
  • 预训练和微调

GPT(生成式预训练)

GPT(Generative Pre-trained Transformer)是一种先进的自然语言处理模型,它能生成类似于人类写作的文本。

  • 生成式
  • 预训练
  • Transformer

向量数据库

向量数据库是专门设计来存储,管理和检索向量数据的数据库。在传统的数据库中,数据通常以表格的形式存储。而向量数据库则更适合处理形式为多维数组的数据,它们能够支持在这些向量集合上执行复杂的查询。

为什么需要向量数据库

  • 高效检索
  • 大规模存储
  • 动态更新

嵌入(Embeddings)

嵌入(Embeddings)是一种常用的技术,特别是在自然语言处理和机器学习领域中,用于将文本,图像等非数值形式的数据转换成数值型向量。这些数值向量可以被计算机更好的理解和处理。

嵌入的基本概念

这些向量不是随机的数字,而是通过学习得到的。它们捕捉并表达了原始数据的重要特性和关系。

为什么要使用嵌入

  • 降维
  • 捕获关系

LLM(大语言模型)

基本概念

  • 规模大
  • 语言
  • 模型

例子解释

理解大语言模型的关键点

  • 大量数据训练
  • 复杂的结构

Model Size

具体解释

参数数量,主要包括权重和偏置,在模型训练过程中通过不断更新来优化模型的性能。

为什么参数数量重要?

训练和资源需求

OpenAI

成立和早期发展

主要突破与模型

  • GPT
  • Codex

其他重要项目

  • DALL-E
  • CLIP

合作与开源