大模型 - 一粒麦子的收藏集 - 掘金

大模型

更多收藏集

1篇文章 · 0订阅

如何基于 RLHF 来优化 ChatGPT 类型的大语言模型

🚴前言对于ChatGPT来说，RLHF是其训练的核心。所谓RLHF，即Reinforcement Learning with Human Feedback，基于人类反馈的强化学习。这项技术通过结合模

周一同学Zelina
2年前
4.5k
5
评论

如何基于 RLHF 来优化 ChatGPT 类型的大语言模型