开课吧-代码实战精英计划 001期

130 阅读3分钟

Download:百度网盘

提取码:45on

当前的机器学习算法大致可以分为有监督的学习、无监督的学习和强化学 习(Reinforcement Learning)等。强化学习和其他学习方法不同之处在于强化学 习是智能系统从环境到行为映射的学习,以使奖励信号函数值最大。如果智能 体的某个行为策略导致环境正的奖赏,那么智能体以后产生这个行为策略的趋 势便会加强。强化学习是最接近于自然界动物学习的本质的一种学习范式。然 而强化学习从提出到现在,也差不多有半个世纪左右,它的应用场景仍很有限, 规模大一点的问题就会出现维数爆炸,难于计算,所以往往看到的例子都是相 对简化的场景。

最近因为与深度学习结合,解决海量数据的泛化问题,取得了让人印象深刻 的成果。包括 DeepMind 的自动学习玩 ATARI 游戏,以及 AlphaGo 在围棋大赛中 战胜世界冠军等,其背后的强大武器就是深度强化学习技术。相对于 DeepMind和学术界看重强化学习的前沿研究,阿里巴巴则将重点放在推动强化学习技术 输出及商业应用。在阿里移动电商平台中,人机交互的便捷,碎片化使用的普 遍性,页面切换的串行化,用户轨迹的可跟踪性等都要求我们的系统能够对变 幻莫测的用户行为以及瞬息万变的外部环境进行完整地建模。平台作为信息的 载体,需要在与消费者的互动过程中,根据对消费者(环境)的理解,及时调整 提供信息(商品、客服机器人的回答、路径选择等)的策略,从而最大化过程累 积收益(消费者在平台上的使用体验)。基于监督学习方式的信息提供手段,缺 少有效的探索能力,系统倾向于给消费者推送曾经发生过行为的信息单元(商 品、店铺或问题答案)。而强化学习作为一种有效的基于用户与系统交互过程建 模和最大化过程累积收益的学习方法,在一些阿里具体的业务场景中进行了很 好的实践并得到大规模应用。

R-C (1).jpg 在广告系统中,如果广告主能够根据每一条流量的价值进行单独出价,广 告主便可以在各自的高价值流量上提高出价,而在普通流量上降低出价,如此 容易获得较好的 ROI,与此同时平台也能够提升广告与访客间的匹配效率。阿里 巴巴实现了基于强化学习的智能调价技术,对于来到广告位的每一个访客,根 据他们的当前状态去决定如何操作调价,给他们展现特定的广告,引导他们的 状态向我们希望的方向上做一步转移,在双 11 实测表明,CTR,RPM 和 GMV 均得到了大幅提升。