rl - 风雨中的小七的收藏集 - 掘金

rl

风雨中的小七

更多收藏集

1篇文章 · 0订阅

在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs

我们很高兴正式发布 trl 与 peft 的集成，使任何人都可以更轻松地使用强化学习进行大型语言模型 (LLM) 微调！在这篇文章中，我们解释了为什么这是现有微调方法的有竞争力的替代方案。请注意，

HuggingFace
3年前
1.9k
12
1

在一张 24 GB 的消费级显卡上用 RLHF 微调 20B LLMs