AI - betterlin的收藏集 - 掘金

AI

更多收藏集

2篇文章 · 0订阅

机器学习|从0开发大模型之DeepSeek的GRPO

最近，DeepSeek-R1的发布为国产大模型争光了（太强了），不过 GRPO 算法源自 DeepSeekMath 7B 模型，该模型在 MATH 基准测试中取得了优异成绩...

周末程序猿
1年前
623
2
评论

详解基于人类反馈的强化学习 (RLHF)算法原理

InstructGPT：让人工智能更听话的技术 InstructGPT 是一种训练大型语言模型（就像 GPT-3）的技术，让它们更好地理解人类的指令，并给出更符合我们期望的回答。这种技术的核心是基于人

程序员小jobleap
1年前
587
4
评论