首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
用户76126991332
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
深度强化学习中的DPO算法:理论与实践
深度强化学习中的DPO算法:理论与实践 引言 随着大型语言模型(LLMs)在自然语言处理领域的卓越表现,如何有效地对其进行微调以使其行为更符合人类偏好成为了一个重要的研究方向。
批归一化以及训练技巧
批归一化(Batch Normalization, BN) 是一种用于加速深度神经网络训练的技术,通过在每一层的小批量数据上进行归一化来稳定网络的训练过程。
Datawhale X 李宏毅苹果书 AI夏令营-自适应学习率
动量法(Momentum)是一种优化方法,用于加速梯度下降收敛。它通过引入一个动量项,积累过去梯度的指数衰减平均值,从而减少震荡,保持更新方向的稳定性。
Datawhale X 李宏毅苹果书 AI夏令营
在深度学习的优化过程中,局部极小值与鞍点是两个常见的挑战。批量与动量是加速优化过程的重要技巧。批量(batch)指的是在每次迭代中使用的数据子集。
个人成就
文章被点赞
1
文章被阅读
1,384
掘力值
43
关注了
0
关注者
0
收藏集
0
关注标签
0
加入于
2024-06-26