提取码:45on
当前的机器学习算法大致可以分为有监督的学习、无监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习方法不同之处在于强化学 习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能 体的某个行为策略导致环境正的奖赏,那么智能体以后产生这个行为策略的趋 势便会加强。强化学习是最接近于自然界动物学习的本质的一种学习范式。然 而强化学习从提出到现在,也差不多有半个世纪左右,它的应用场景仍很有限, 规模大一点的问题就会出现维数爆炸,难于计算,所以往往看到的例子都是相 对简化的场景。
最近因为与深度学习结合,解决海量数据的泛化问题,取得了让人印象深刻 的成果。包括 DeepMind 的自动学习玩 ATARI 游戏,以及 AlphaGo 在围棋大赛中 战胜世界冠军等,其背后的强大武器就是深度强化学习技术。相对于 DeepMind和学术界看重强化学习的前沿研究,阿里巴巴则将重点放在推动强化学习技术 输出及商业应用。在阿里移动电商平台中,人机交互的便捷,碎片化使用的普 遍性,页面切换的串行化,用户轨迹的可跟踪性等都要求我们的系统能够对变 幻莫测的用户行为以及瞬息万变的外部环境进行完整地建模。平台作为信息的 载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整 提供信息(商品、客服机器人的回答、路径选择等)的策略,从而最大化过程累 积收益(消费者在平台上的使用体验)。基于监督学习方式的信息提供手段,缺 少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商 品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很 好的实践并得到大规模应用。
在广告系统中,如果广告主能够根据每一条流量的价值进行单独出价,广 告主便可以在各自的高价值流量上提高出价,而在普通流量上降低出价,如此 容易获得较好的 ROI,与此同时平台也能够提升广告与访客间的匹配效率。阿里 巴巴实现了基于强化学习的智能调价技术,对于来到广告位的每一个访客,根 据他们的当前状态去决定如何操作调价,给他们展现特定的广告,引导他们的 状态向我们希望的方向上做一步转移,在双 11 实测表明,CTR,RPM 和 GMV 均得到了大幅提升。