一. 大模型前置知识和概念

300 阅读2分钟

前置知识

  • 学习大模型技术需要掌握的基础知识包括数学(线性代数、微积分、概率论与统计、优化理论)
  • 编程(Python、数据结构与算法)
  • 机器学习基础(监督/非监督学习、损失函数、神经网络)
  • 深度学习框架(如TensorFlow、PyTorch)以及数据处理和并行计算能力

1.什么是学习

机器学习是一种通过数据训练模型,使计算机能够从数据中学习规律并做出预测或决策的技术。它的核心思想是让机器通过经验(数据)改进性能,而不是依赖明确的编程指令。

机器学习的关键特点:

  • 数据驱动:模型从数据中学习,而不是通过硬编码规则。
  • 泛化能力:模型能够对未见过的数据做出合理的预测。
  • 迭代优化:通过不断调整模型参数,提高预测准确性。

机器学习的类型:

  • 监督学习:先告知特征和类别的关系,从而进行预测
  • 无监督学习:知道特征,但是不知道类型,没有人为的预设类别,从而进行同类分组
  • 强化学习:啥也不知道,是通过一种人为的奖励机制进行反馈,直到能够自主判断

什么是深度学习

深度学习的算法致力于模拟人类大脑的工作方式,其灵感来源于神经生物学,通过对大量数据的学习,自动提取出数据的高层次特征和模式,从而实现图像识别,语音识别,自然语言处理等任务。 按照架构的不同,可以分成三种:CNNs(卷积神经网络)、RNNs(循环神经网络)、Transformer网络

大模型的演变史

image.png

2.什么是训练

整体上分三个阶段: 预训练(通用能力)、SFT监督微调(专业)、RLHF(人类反馈的强化学习)

局部截取_20250206_141749.png

局部截取_20250206_142311.png

局部截取_20250206_142732.png

3.大模型的特点

有以下四个特点 参数量大、适应性强、广泛的数据集、资源消耗也大

局部截取_20250206_143231.png

4.大模型的分类

image.png

image.png