2024/8/8 由 哥伦比亚大学发布的AExGym ,用于自适应实验的开源框架。
科学界和工业界的创新使用随机试验(又名A/B 测试)进行评估,简单稳健。
一、目前存在的挑战
这种静态设计 对检验许多假设来说效率低 。自适应设计理论可以提高统计能力,但由于实践中的脆弱性,它们的采用受到限制。
为了解决这个问题,提出了一个基于真实世界数据集的自适应实验基准,尤其在面对适应性的挑战:
非平稳性、批量/延迟反馈、多个结果和目标以及外部有效性。
发布了一个开源库:AExGym, 用于自适应实验的开源框架,通过马尔可夫决策过程的视角对自适应实验进行建模。在马尔可夫决策过程中,智能体(Agent)基于当前状态(State)和环境提供的反馈(Rewards)来选择动作(Actions),并考虑长期累积奖励的优化。再通过观察真实数据集来进行归纳,从而生成新的算法创新。
地址:AExGym
二、让我们看一下AExGym 开源框架:
𝖠𝖤𝗑𝖦𝗒𝗆包括一个Environment、Agent和一组评估标准。
在每个时期内,都会𝖤𝗇𝗏𝗂𝗋𝗈𝗇𝗆𝖾𝗇𝗍生成一批上下文(例如,用户特征)。
接收𝖠𝗀𝖾𝗇𝗍这些上下文以及实验过程的整个历史记录(过去的上下文批次、分配和个人级别结果),并输出可能个性化的分配策略。
在实验结束时,实验过程的历史记录以及最终分配策略𝖠𝗀𝖾𝗇𝗍通过一组实际评估标准进行评估,这些标准可能包括以下一项或多项:实验内成本、实验后目标、预算约束或结果约束。
使用了多个数据集来模拟实验环境,
包括微观信贷扩张研究、宾夕法尼亚再就业奖金示范项目、国家卫生访谈调查、ASOS数字实验和实地实验数据。
三、具体的优势
在线A/B测试是一种常见的做法,用于比较两个版本的网页或应用界面,以确定哪个版本在特定指标上表现更好,比如点击率、转化率或用户留存率。而AExGym框架支持的自适应实验和传统A/B测试之间存在一些关键区别:
1、动态调整:
- 传统A/B测试:通常在测试期间保持不变,将用户随机分配到两个固定版本的界面中。
- AExGym支持的自适应实验:可以根据收集到的数据动态调整实验条件。例如,如果发现某个版本在特定用户群体中表现更好,算法可以自动增加这一版本的曝光率。
2、Multi-Armed Bandit (MAB)问题:
在自适应实验中,多个选项中选择最佳选项,这在AExGym中是一个核心概念。而在传统A/B测试中,通常只比较两个选项。
3、多目标优化:
AExGym允许同时考虑多个目标和指标,实验设计可以针对多个优化目标进行调整。而传统A/B测试往往只关注一个主要指标。
4、复杂性和现实挑战的模拟:
AExGym可以模拟更复杂的现实世界挑战,如非平稳性、批量反馈、外部有效性等,这些在传统A/B测试中可能不会被考虑。
5、算法和策略的测试:
AExGym提供了一个平台,可以测试和比较不同的自适应算法和策略,而传统A/B测试通常不涉及算法的选择。
6、个性化和定制:
AExGym支持更高级的个性化策略,可以根据用户的特定特征和行为来定制实验,而传统A/B测试通常对所有用户采用相同的版本。
7、模块化和可扩展性:
AExGym的设计允许研究人员和实践者根据自己的需求定制实验环境和评估标准,而传统A/B测试工具可能提供的功能更为固定和有限。
8、开源和自定义:
AExGym是一个开源库,这意味着研究人员和开发者可以修改源代码来适应特定的实验需求,而商业A/B测试工具通常是封闭的,用户只能通过界面进行操作。
总的来说,AExGym提供了一种更为灵活和高级的方法来进行在线实验,它特别适合于需要考虑多个变量、目标和复杂用户行为的场景。