Q学习与Atari游戏RAM版本
Q学习算法在像素输入的Atari游戏上取得了显著成功。由于Atari游戏的RAM非常有限,因此将RAM状态作为输入,尝试训练Q学习模型也很有趣。尽管如此,使用RAM状态进行Q学习却意外地具有挑战性。
目标:开发一个能够使用相同超参数在多种Atari游戏上工作的Q学习实现,输入是Atari模拟器的RAM状态。
实验:使用Gym平台上的Atari环境,其中输入为完整的Atari计算机RAM状态。
并行TRPO
并行化在深度学习和强化学习中非常重要。成功的并行化算法可以加速训练并推动该领域的发展。
目标:实现TRPO算法,使其能够使用多台计算机比单线程实现快15倍,适用于MuJoCo或Atari的Gym环境。
实验:通过并行化来提高训练速度,探索是否可以通过增加节点数来提高效率。
自然Q学习
实现并测试自然版本的Q学习,并与普通Q学习进行对比。自然梯度方法已在许多领域取得了成功,但在Q学习中尚未得到广泛应用。
目标:将自然梯度应用到Q学习中,并与常规Q学习进行比较。
实验:验证自然Q学习是否能解决RAM版本的Atari任务。
多任务强化学习(MuJoCo环境)
大多数机器学习算法通常训练解决单一任务,但多任务学习有助于提高效率。特别是在强化学习中,长期来看经验比计算资源更加昂贵,因此值得探索多任务学习的可行性。
目标:训练一个神经网络同时解决多个MuJoCo环境的问题,测量通过多任务学习加速新任务训练的效果。
多目标强化学习
在强化学习中,往往有多个需要优化的奖励,例如在机器人行走任务中,需要最大化速度的同时减少关节扭矩和地面冲击。使用过滤方法来共同优化多个奖励函数。
目标:开发一个过滤方法用于RL,优化多个奖励函数,并在Gym的MuJoCo环境中进行测试。
逆DRAW模型
DRAW模型是一种生成自然图像的模型,通过注意力机制逐步生成图像。在逆DRAW模型中,模型从隐藏变量中读取信息,生成观测数据。
目标:研究逆DRAW模型,并将其应用于文本数据集,探索模型如何将单词与隐藏变量进行匹配。
程序学习:减少信息量
程序学习是一个挑战,许多机器学习任务如排序、加法等可以作为算法学习的例子。目标是设计一个能够从部分执行轨迹学习的模型,而不是完整的执行轨迹。
目标:设计一个模型从部分执行轨迹中学习并解决算法任务,如排序和字符串操作。
连续动作Q学习改进
Q学习可以解决许多强化学习问题,但对于具有连续动作空间的任务,Q学习仍需改进。
目标:开发一个强大的Q学习实现,能够解决所有带有连续动作空间的Gym环境,并保持超参数不变。
Im2Latex:图像转LaTeX
使用注意力机制,开发一个模型从数学公式图像中生成LaTeX源代码。
目标:实现一个基于注意力机制的序列到序列模型,从PDF中的数学公式图像中提取LaTeX代码。
基于笑话语料库的语言模型训练
训练一个字符级的语言模型,通过对笑话语料库进行训练,生成幽默的文本。
目标:使用笑话语料库训练LSTM模型,并生成有趣的笑话。
值函数差异化
Bertsekas提出了一个有趣的想法:学习状态之间的价值差异,而不是状态本身的价值。
目标:实现这种算法,并应用到Gym环境中。
描述生成代码
将简短的文本描述转换为程序代码。这个目标目前超出了现有机器学习算法的范围。
目标:解决将文本描述转化为程序代码的难题,虽然这对现有技术是个挑战。
改进TRPO的样本效率
TRPO是一种有效的策略梯度算法,适用于连续和离散控制问题,但它在样本效率上仍有提升空间。
目标:改进TRPO,使其在MuJoCo环境中使用更少的经验达到相同的性能。