前置知识
- 学习大模型技术需要掌握的基础知识包括数学(线性代数、微积分、概率论与统计、优化理论)
- 编程(Python、数据结构与算法)
- 机器学习基础(监督/非监督学习、损失函数、神经网络)
- 深度学习框架(如TensorFlow、PyTorch)以及数据处理和并行计算能力
1.什么是学习
机器学习是一种通过数据训练模型,使计算机能够从数据中学习规律并做出预测或决策的技术。它的核心思想是让机器通过经验(数据)改进性能,而不是依赖明确的编程指令。
机器学习的关键特点:
- 数据驱动:模型从数据中学习,而不是通过硬编码规则。
- 泛化能力:模型能够对未见过的数据做出合理的预测。
- 迭代优化:通过不断调整模型参数,提高预测准确性。
机器学习的类型:
- 监督学习:先告知特征和类别的关系,从而进行预测
- 无监督学习:知道特征,但是不知道类型,没有人为的预设类别,从而进行同类分组
- 强化学习:啥也不知道,是通过一种人为的奖励机制进行反馈,直到能够自主判断
什么是深度学习
深度学习的算法致力于模拟人类大脑的工作方式,其灵感来源于神经生物学,通过对大量数据的学习,自动提取出数据的高层次特征和模式,从而实现图像识别,语音识别,自然语言处理等任务。 按照架构的不同,可以分成三种:CNNs(卷积神经网络)、RNNs(循环神经网络)、Transformer网络
大模型的演变史
2.什么是训练
整体上分三个阶段: 预训练(通用能力)、SFT监督微调(专业)、RLHF(人类反馈的强化学习)
3.大模型的特点
有以下四个特点 参数量大、适应性强、广泛的数据集、资源消耗也大