AI大模型

AI大模型

AI大模型

AI大模型

暂无订阅共6篇文章创建于2026-04-27

AI大模型：语言模型训练范式-04近端策略优化（PPO）

# 🎯 PPO（近端策略优化）完整详解 ## 一、什么是 PPO？ **PPO（Proximal Policy Optimization，近端策略优化）** 是一种强化学习算法，用于训练“智能体”

15分钟前
3
点赞
评论

AI大模型：语言模型训练范式-04直接偏好优化（DPO）

# 🎯 DPO（直接偏好优化） ## 一、什么是 DPO？ **DPO（Direct Preference Optimization，直接偏好优化）** 是一种简单高效的大模型对齐技术。它的核心

15分钟前
4
点赞
评论

AI大模型：语言模型训练范式-03奖励模型（Reward Model）

🎯 Reward Model（奖励模型）一、什么是 Reward Model？ Reward Model（奖励模型）是一个独立的神经网络，它的任务是：给任意一个（Prompt, Response）

1天前
7
点赞
评论

AI大模型：语言模型训练范式——02有监督微调（SFT）

🎓 SFT（有监督微调）一、什么是 SFT？ SFT（Supervised Fine-Tuning，有监督微调）是在预训练模型的基础上，使用人工标注的（输入，输出）对进一步训练模型的过程。输入：

1天前
7
点赞
评论

AI大模型：探索神经网络的奥秘：从模型到深度学习

探索神经网络的奥秘：从模型到深度学习摘要神经网络是一种通过参数化数学公式实现通用函数逼近的模型。本文从“模型即数学公式”出发，系统阐述神经网络的基本原理、训练机制（梯度下降与反向传播）以及以 MN

2天前
51
1
评论

AI大模型：语言模型训练范式——预训练（Pretrain）

什么是预训练（Pretrain）？预训练是大语言模型训练流程的第一步，也是最昂贵、最核心的一步。简单说：在海量的、没有人工标注的文本上，让模型自己去“读书”

3天前
31
1
评论