Datawhale组队学习-大语言模型-day05

57 阅读1分钟

人类对齐

无论是从功能上还是从伦理上,人们都要求大语言模型应该是和人类的(正面的)习惯接近的。

人类对齐基础

最有代表性的是3H准则:有用性、诚实性、无害性。 实现方案最常见的是RLHF,也就是人为地纠正一下输出结果,主要分3步:监督微调、奖励模型训练、强化学习微调。这个环节对参与的人要求还挺高,也许是个产生就业岗位的机会。

局部截取_20250315_230935.png 强化学习阶段还涉及PPO优化

人类对齐进阶

这部分主要是GRPO、DPO等改进 介绍了post-training的流程 另一个关注点是幻觉现象,这里分析了幻觉现象的种类、来源、检测方式及消除方式。

局部截取_20250315_233217.png 总结:今天正好又去Datawhale线下meetup了一下,印象最深的是哈工大的温鑫同学用通俗口吻讲解大模型训练过程,也是类比了人从小学到成年的学习。也是希望通过这次学习不仅掌握算法本身,也同时思考改进自己的学习技巧。