从基本概念到 NLP 应用与挑战

55 阅读4分钟

从基本概念到 NLP 应用与挑战

一、引言

强化学习在 2017 年 AlphaGO 打败柯洁时备受关注,其展现出的强大能力让世人惊叹。而 ChatGPT 又将强化学习引入自然语言处理(NLP)领域。本文主要介绍强化学习基本概念、在 NLP 中的建模情况,以及 ChatGPT 相关的强化学习应用。

二、强化学习基本概念

(一)定义与原理

强化学习是机器学习方法,智能体通过与环境交互学习最优决策。智能体依据环境状态执行动作,获得奖励或惩罚,目标是最大化长期奖励来制定最佳策略,类似生物进化。其应用广泛,包括游戏、自然语言处理等领域。

(二)基本建模示例——超级马里奥游戏

以超级马里奥游戏为例,马里奥是智能体,游戏关卡是环境。玩家玩游戏过程是强化学习的好例子,体现了“屡战屡败,屡败屡战”的 Trial & Failed 学习模式。

三、强化学习要素

(一)状态(State)

环境和智能体构成的整体状态与时间有关,用 s 表示,所有时刻状态构成集合。在超级马里奥游戏中,玩家位置、游戏画面物体和障碍都是状态;在围棋中,棋盘上棋子分布是状态。

(二)动作(Action)

智能体可做出的动作集合用 a∈A 表示。在超级马里奥游戏中,玩家通过手柄按键控制马里奥动作;在围棋中,对弈方在棋盘某位置下子是动作。

(三)策略(Policy)

是环境感知状态到行动的映射方式π(s)→a。在超级马里奥游戏和围棋中都有相应体现,即玩家根据当前情况决定操作。

(四)反馈、奖励(Reward)

环境对智能体行动的反馈。在超级马里奥游戏中,玩家操作后游戏成功或失败是反馈;在围棋中,棋子下在正确位置制胜是奖励。

四、强化学习路径与马尔可夫性

(一)强化学习路径

一条强化学习路径为 s0→a0→r0→s1→a1→r1→...→st→at→rt,也叫一次采样或一条轨迹,以马里奥游戏为例,玩游戏全过程就是这样的路径,reward 值在完整游戏过程后确定。 ### (二)马尔可夫性 在某状态做动作决策只依赖当前状态,如马里奥游戏中之前的乌龟不影响后续跳跃陷阱的决策。

五、价值函数

(一)状态价值函数

Vπ(s)=Eπ[Gt∣St = s],是针对策略π而言,从状态 s 出发遵循策略π能获得的期望回报,Gt是对反馈奖励的加权求和,γ是影响因子。以马里奥游戏为例说明了计算状态价值。 ### (二)动作价值函数 Qπ(s,a)=Eπ[Gt∣St = s,At = a],在当前状态 s 执行动作 a 后遵循策略π获得的期望回报价值,与状态价值函数有关,在确定性策略下二者关系有特定形式。

六、强化学习与 NLP 相结合的困难点

(一)传统应用场景优势

强化学习在棋牌和电子游戏中应用容易,因为这些场景是虚拟环境,环境易创造,reward 易构造,如超级马里奥和 AlphaGo 的环境与 reward 判断都较简单。

(二)NLP 中的困难

NLP 依赖的环境是整个现实世界,复杂度高,且难以设计 reward 函数,在 ChatGPT 之前没有程序能准确评价 NLP 程序输出结果,存在类似鸡生蛋、蛋生鸡的问题。

七、ChatGPT 与强化学习

(一)ChatGPT 的强化学习概念映射

智能体是 ChatGPT 模型,环境是被自然语言描述的现实世界(人类用户),状态是 prompt(无时间性),策略和动作是模型根据输入输出文本,反馈 reward 是人类对输出结果的评价,而人工标注数据代价大。

(二)制作

reward model OpenAI 找外包标注大量数据制作 reward model,解决了奖励函数设计问题。

八、总结

强化学习是让智能体通过与环境交互学习最优决策。NLP 与强化学习结合的难点在于环境复杂和 reward 函数难设计,ChatGPT 在一定程度上克服了这些困难推动了强化学习在 NLP 领域的应用。