ai - halamarcus的收藏集 - 掘金

ai

更多收藏集

1篇文章 · 0订阅

DeepSeek-R1：开源Top推理模型的实现细节、使用与复现

直接用强化学习就可以让模型获得显著的推理能力，说明并不一定需要SFT才行。强化学习并不一定需要复杂的奖励模型，使用简单的规则反而取得意想不到的效果。通过知识蒸馏让小模型一定程

深度学习机器
1年前
706
1
评论

DeepSeek-R1：开源Top推理模型的实现细节、使用与复现