强化学习与NLP

139 阅读2分钟

核心概念

智能体(Agent):在环境中行动并学习的主体,如同游戏里的玩家角色、机器人等,具备决策能力,能依据自身状态与所获信息挑选行动策略,目标是最大化长期累积奖励。例如,在自动驾驶场景下,智能体是车辆控制系统,要依路况、传感器数据决定加速、刹车、转弯等操作。

环境(Environment):智能体所处外部世界,有自身状态与规则,状态会因智能体行动改变,同时反馈奖励信号给智能体。像迷宫游戏环境,墙壁位置固定、终点明确,智能体移动(行动)会改变所在方格(状态),抵达终点获高奖励,碰壁可能得负奖励。

行动(Action):智能体可做出的选择,不同场景下行动空间各异。对围棋智能体而言,行动是在棋盘合法落子点下棋;机械臂控制场景,行动是关节转动角度调整以完成抓取、放置等任务,行动影响环境与自身后续处境。

奖励(Reward):环境对智能体行动即时反馈数值,衡量行动优劣,指引智能体学习方向。正奖励鼓励好行为,负奖励提示需避免做法。走迷宫时,每向终点靠近一步得小正奖励,误入死胡同扣罚,最终到终点获大额奖励,促使智能体学会最优路径。

状态(State):智能体对环境即时感知,是决策依据,涵盖环境关键信息。玩扑克牌时,手牌、已出牌、对手表情动作(若可观察)等构成智能体状态,助其决定出牌策略。

动态且模糊的状态空间:在 NLP 任务里,文本序列的语义、语法、语用信息构成复杂多变的 “状态”。例如文本摘要任务,源文档语义理解受词汇多义、句法结构、篇章逻辑等影响,不同人解读有差异,难以精准量化成稳定状态表示供强化学习智能体感知,不像游戏环境中棋盘布局、机器人位置那般直观可数学建模。

高维离散动作空间难题:NLP 动作常是词汇选择、句子生成操作,词汇量大(如常见英文词汇超十万),组合爆炸下生成合理句子、摘要等动作可能性极多。从海量词里选下一个词续写文本,比机器人在有限方向(前、后、左、右等)移动动作决策复杂得多,导致策略学习难度飙升。