langchain - tigershinny的收藏集 - 掘金

langchain

更多收藏集

2篇文章 · 0订阅

大模型面试题剖析：PPO 与 GRPO 强化学习算法核心差异解析

在大模型与强化学习交叉的技术领域面试中，PPO（Proximal Policy Optimization）和GRPO这两种算法常常成为面试官考察候选人对强化学习算法理解深度与工程实践能力的重点。

艾醒
2月前
174
点赞
评论

大模型面试题剖析：PPO 与 GRPO 强化学习算法核心差异解析

微软开源的GraphRAG爆火，Github Star量破万，生成式AI进入知识图谱时代？

LLM 很强大，但也存在一些明显缺点，比如幻觉问题、可解释性差、抓不住问题重点、隐私和安全问题等。检索增强式生成（RAG）可大幅提升 LLM 的生成质量和结果有用性。

机器之心
1年前
482
3
评论