总结:
1. 在特定领域下AI已经超越人类水平,现在大佬们主要研究方向是通用人工智能
2. 通用人工智能目前认为包含四大部分:感知、推理、记忆、认知,其中推理是现在的主攻方向
3. 监督学习可以极快的收敛,但只能接近人类水平上限无法超越(只能模仿);强化学习收敛的速度慢,但泛化能力更强,在数据集以外的情景中会有更好的表现,也可以靠自我探索去突破人类水平上限(在模仿和探索之间平衡)
4. (1) 监督学习中,输入经过神经网络计算后得到一个输出,输出与正确答案进行比较得到损失,通过损失反向更新神经网络的参数
(2) 强化学习中,有基于策略的神经网络和基于价值的神经网络。基于策略的神经网络指:输入当前状态,模型给出一个可以获得最终最优解的当前步操作。基于价值的神经网络指:输入当前状态,模型给出一个距离最优解的价值期望(对于围棋来说就是胜率)
5. 与监督学习不同的是,强化学习并非每一步都可以得到损失去更新参数,而可能是在一系列操作完成后才能得到一个最终的奖励数值(围棋来说就是一盘比赛结束后的胜负)。因此常规做法是将最后的奖励数值权重平分到每一步操作上,更复杂的RL算法本质都在调整这一步的分配权重
6. AlphaGo中,首先用已有数据集通过监督学习训练了一个基于策略的神经网络。然后通过两个神经网络互相对战刷取了大量数据进行强化学习,同时用这些数据训练出了一个基于价值的神经网络
7. AlphaZero的训练舍弃了第一步的监督学习过程展现出了更好的结果,证明带监督学习的AlphaGo更容易被人类思维束缚

感想:
1. 奖励数值权重平分到每一步操作和另一种越靠后的权重越大感觉上是不合理的,很多情况都存在局部最优解不等于全局最优解,有没有可能训练另一个模型去分配每一步的权重比例呢
2. Reward hacking还挺好玩的,经常能看到很多好玩的训练失败的例子,不过感觉本质还是环境不完全拟合或者奖励模型有问题?
3. 第一次看到对抗类场景两个神经网络可以互相刷数据的时候有点震撼,白拿的数据啊还不用打标(感觉GAN的思想也比较类似)
#每日精选文章#
展开
评论