Datawhale组队学习-大语言模型-day05人类对齐无论是从功能上还是从伦理上，人们都要求大语言模型应该是和人类

人类对齐

无论是从功能上还是从伦理上，人们都要求大语言模型应该是和人类的（正面的）习惯接近的。

最有代表性的是3H准则：有用性、诚实性、无害性。实现方案最常见的是RLHF，也就是人为地纠正一下输出结果，主要分3步：监督微调、奖励模型训练、强化学习微调。这个环节对参与的人要求还挺高，也许是个产生就业岗位的机会。

局部截取_20250315_230935.png 强化学习阶段还涉及PPO优化

这部分主要是GRPO、DPO等改进介绍了post-training的流程另一个关注点是幻觉现象，这里分析了幻觉现象的种类、来源、检测方式及消除方式。

局部截取_20250315_233217.png 总结：今天正好又去Datawhale线下meetup了一下，印象最深的是哈工大的温鑫同学用通俗口吻讲解大模型训练过程，也是类比了人从小学到成年的学习。也是希望通过这次学习不仅掌握算法本身，也同时思考改进自己的学习技巧。