首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
AI大模型
巴糖
创建于2026-04-27
订阅专栏
AI大模型
暂无订阅
共6篇文章
创建于2026-04-27
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
AI大模型:语言模型训练范式-04近端策略优化(PPO)
# 🎯 PPO(近端策略优化)完整详解 ## 一、什么是 PPO? **PPO(Proximal Policy Optimization,近端策略优化)** 是一种强化学习算法,用于训练“智能体”
AI大模型:语言模型训练范式-04直接偏好优化(DPO)
# 🎯 DPO(直接偏好优化) ## 一、什么是 DPO? **DPO(Direct Preference Optimization,直接偏好优化)** 是一种简单高效的大模型对齐技术。它的核心
AI大模型:语言模型训练范式-03奖励模型(Reward Model)
🎯 Reward Model(奖励模型) 一、什么是 Reward Model? Reward Model(奖励模型) 是一个独立的神经网络,它的任务是:给任意一个(Prompt, Response)
AI大模型:语言模型训练范式——02有监督微调(SFT)
🎓 SFT(有监督微调) 一、什么是 SFT? SFT(Supervised Fine-Tuning,有监督微调) 是在预训练模型的基础上,使用人工标注的(输入,输出)对进一步训练模型的过程。 输入:
AI大模型:探索神经网络的奥秘:从模型到深度学习
探索神经网络的奥秘:从模型到深度学习 摘要 神经网络是一种通过参数化数学公式实现通用函数逼近的模型。本文从“模型即数学公式”出发,系统阐述神经网络的基本原理、训练机制(梯度下降与反向传播)以及以 MN
AI大模型:语言模型训练范式——预训练(Pretrain)
什么是预训练(Pretrain)? 预训练是大语言模型训练流程的第一步,也是最昂贵、最核心的一步。 简单说:在海量的、没有人工标注的文本上,让模型自己去“读书”