使用大型语言模型生成工作推荐
Generative Job Recommendations with LargeLanguage Model
摘要
近年来,工作推荐系统在帮助求职者寻找合适职位方面发挥了重要作用。本文介绍了一种新型的基于大型语言模型(LLM)的生成式工作推荐系统,称为GIRL(GeneratIve job Recommendation based on Large language models)。此系统不仅提供传统的工作匹配功能,还能生成个性化的工作描述,从而提供更全面、更个性化的求职体验。
GIRL 系统的核心在于使用大型语言模型来生成符合求职者需求和特点的工作描述。
1. 论文中提到的训练步骤:
- 监督微调(SFT):构建了一个CV-JD对组成的数据集,使用是的指令微调来训练LLM。
- 奖励模型训练(RMT):构建了一个由匹配和不匹配的CV-JD对组成的数据集,其中包含招聘人员对求职者的反馈。然后训练了一个奖励模型来区分匹配的CV-JD对和不匹配的对,以模仿显示世界的招聘人员。
- 来自招聘人员反馈的强化学习(RLRF):利用基于近端策略优化(PPO)的强化学习方法来进一步使LLM与奖励模型捕获的招聘人员偏好保持一致,从而使LLM的生成不仅考虑到求职者的偏好,还考虑到市场的实际需求。
1.1三步训练步骤总结:
-
首先利用监督微调来指导基于LLM的生成器根据具体的简历创建合适的职位描述
-
然后根据招聘人员的反馈建立了奖励模型
-
最后实施了基于近似策略优化(PPO)的强化学习算法,使生成器与招聘人员的偏好同步
2. 问题定义
论文介绍了生成式工作推荐2.1和生成增强型工作推荐2.2的问题表述
2.1 生成式工作推荐(Generative Job Recommendation)
- 目标:训练一个生成器 G 来为特定求职者 s 生成合适的工作描述 J '。数学上表示为 G : C→J ′,其中C 代表求职者的简历。
- 背景:在传统的工作推荐系统中,推荐任务通常是确定性的,即从候选工作中选择最适合求职者的工作。而生成式工作推荐则转变为一个生成任务,即直接为求职者生成工作描述。
- 挑战:需要生成的工作描述 J′ 不仅要具有高质量,而且要包含最适合求职者 s 的工作信息,为其提供有意义的职业指导。
2.2 生成增强的工作推荐(Generation-Enhanced Job Recommendation)
-
目标:训练一个模型 M 来计算求职者 s 和工作 j 之间的匹配分数。数学上表示为 M:C,,J,,J ′→R,其中J‘ 是工作的描述。
-
背景:在这种框架中,求职者的简历 C,工作 J,以及为求职者生成的**工作描述 J′ **被用作输入,以计算求职者和工作之间的匹配分数。
-
创新:该方法的创新之处在于,它不仅考虑了传统的简历和工作描述匹配,还加入了为求职者生成的工作描述 J′,这一步骤有助于增强模型对匹配程度的预测能力。
(生成式工作推荐)生成的 J‘ ----> (生成增强的工作推荐)M:C,,J,,J ′→R
3. 生成式推荐框架
如下图所示, 生成式推荐框架基于大语言模型,包括三个步骤。首先,使用人工设计的提示模板将 JD 推荐任务转换为 NLG 格式,并利用监督微调使 LLM 生成器理解推荐任务。其次,作者训练奖励模型来学习招募者反馈并捕捉交互信息。第三,作者利用强化学习进一步使生成器与招聘市场保持一致。
A. 监督微调:
再这部分中,提出以监督式微调的方式训练生成器,基于匹配的简历-工作描述(CV-JD)对。首先,对于一个具体的求职者 s 和其简历 C,以及一个工作 j 和其工作描述 J,作者首先构建一个提示 T 来描述如图3所示的生成任务。为了与训练数据保持一致,原始提示是中文的。然而,为了更好地说明,已将其翻译成英文在图中。提示模板包括以下四个部分:
- 角色:绿色的词,旨在与作者使用的骨干网络的指令调整数据保持一致。
- 指令:黑色的词,用自然人类语言描述生成任务。
- 输入:蓝色的词,包含求职者的信息。
- 输出:黑色的词,即生成目标,即工作描述(JD)文本。请注意,在推理阶段这部分将为空。
然后,提议以非正式语言模型的预训练任务训练生成器。
B. 奖励模型训练:
在这一训练步骤中,作者的目标是训练一个奖励模型 U,该模型能够预测简历-工作描述(CV-JD)对之间的匹配分数,即 U:(C,J)→R。U 的架构与生成器模型 G 相似,但它有一个线性预测头部,输出标量值。此外,U 的参数规模小于 G。
为了训练奖励模型 U,作者收集成对的训练数据,并构建一个排序任务。通常,求职者会同时申请多个工作,并从招聘者那里得到不同的反馈(匹配或拒绝)。因此,作者为每份简历 C 选择一个匹配的工作 J+ 和一个不匹配的工作 J−,以构建可比较的对。然后,作者通过优化如下的成对排序损失来训练 U:Lrmt=logσ(U(C,J+)−U(C,J−)), 其中 σ 表示 Sigmoid 激活函数。
这种方法使奖励模型能够根据招聘者的反馈捕捉市场对求职者的偏好。此外,可以使用奖励模型预测求职者和生成的工作描述之间的匹配分数,从而提前验证推荐的适用性。
C.强化学习:
目标是通过强化学习改善生成器 G 与奖励模型 U 所获得的招聘者反馈之间的一致性。借鉴 InstructGPT [5] 的灵感,作者采用近邻策略优化(Proximal Policy Optimization,PPO)[25] 算法来促进这一对齐过程。具体来说,作者首先使用从前两个训练步骤获得的生成器 G 和奖励模型 U 初始化演员-评论家模型,包括演员模型 Ga 和评论家模型 Uc。接下来,作者收集一个只包含在前两个阶段中未出现的求职者简历的强化学习训练数据集。然后,作者在冻结生成器和奖励模型的情况下,使用 PPO 算法训练演员-评论家模型。最后,作者将演员作为新的生成器模型使用。
4.生成增强的推荐框架
待续........