
获得徽章 0
#每日精选文章# AI艺术工具通讯 - 第1期
平时不太关注这方面AI的进展,这篇文章介绍了很多新的应用,也有理论相关的介绍可以深入研究
平时不太关注这方面AI的进展,这篇文章介绍了很多新的应用,也有理论相关的介绍可以深入研究
评论
点赞
#每日精选文章#
推理模型更注重推理过程的正确和结果稳定收敛,通用模型有更多样化的输出
这篇文章还详细介绍了温度参数的作用及示例,以及上下文、蒸馏、量化等一些基础内容,又学到了一点
推理模型更注重推理过程的正确和结果稳定收敛,通用模型有更多样化的输出
这篇文章还详细介绍了温度参数的作用及示例,以及上下文、蒸馏、量化等一些基础内容,又学到了一点
评论
点赞
总结:
1. 在特定领域下AI已经超越人类水平,现在大佬们主要研究方向是通用人工智能
2. 通用人工智能目前认为包含四大部分:感知、推理、记忆、认知,其中推理是现在的主攻方向
3. 监督学习可以极快的收敛,但只能接近人类水平上限无法超越(只能模仿);强化学习收敛的速度慢,但泛化能力更强,在数据集以外的情景中会有更好的表现,也可以靠自我探索去突破人类水平上限(在模仿和探索之间平衡)
4. (1) 监督学习中,输入经过神经网络计算后得到一个输出,输出与正确答案进行比较得到损失,通过损失反向更新神经网络的参数
(2) 强化学习中,有基于策略的神经网络和基于价值的神经网络。基于策略的神经网络指:输入当前状态,模型给出一个可以获得最终最优解的当前步操作。基于价值的神经网络指:输入当前状态,模型给出一个距离最优解的价值期望(对于围棋来说就是胜率)
5. 与监督学习不同的是,强化学习并非每一步都可以得到损失去更新参数,而可能是在一系列操作完成后才能得到一个最终的奖励数值(围棋来说就是一盘比赛结束后的胜负)。因此常规做法是将最后的奖励数值权重平分到每一步操作上,更复杂的RL算法本质都在调整这一步的分配权重
6. AlphaGo中,首先用已有数据集通过监督学习训练了一个基于策略的神经网络。然后通过两个神经网络互相对战刷取了大量数据进行强化学习,同时用这些数据训练出了一个基于价值的神经网络
7. AlphaZero的训练舍弃了第一步的监督学习过程展现出了更好的结果,证明带监督学习的AlphaGo更容易被人类思维束缚
感想:
1. 奖励数值权重平分到每一步操作和另一种越靠后的权重越大感觉上是不合理的,很多情况都存在局部最优解不等于全局最优解,有没有可能训练另一个模型去分配每一步的权重比例呢
2. Reward hacking还挺好玩的,经常能看到很多好玩的训练失败的例子,不过感觉本质还是环境不完全拟合或者奖励模型有问题?
3. 第一次看到对抗类场景两个神经网络可以互相刷数据的时候有点震撼,白拿的数据啊还不用打标(感觉GAN的思想也比较类似)
#每日精选文章#
1. 在特定领域下AI已经超越人类水平,现在大佬们主要研究方向是通用人工智能
2. 通用人工智能目前认为包含四大部分:感知、推理、记忆、认知,其中推理是现在的主攻方向
3. 监督学习可以极快的收敛,但只能接近人类水平上限无法超越(只能模仿);强化学习收敛的速度慢,但泛化能力更强,在数据集以外的情景中会有更好的表现,也可以靠自我探索去突破人类水平上限(在模仿和探索之间平衡)
4. (1) 监督学习中,输入经过神经网络计算后得到一个输出,输出与正确答案进行比较得到损失,通过损失反向更新神经网络的参数
(2) 强化学习中,有基于策略的神经网络和基于价值的神经网络。基于策略的神经网络指:输入当前状态,模型给出一个可以获得最终最优解的当前步操作。基于价值的神经网络指:输入当前状态,模型给出一个距离最优解的价值期望(对于围棋来说就是胜率)
5. 与监督学习不同的是,强化学习并非每一步都可以得到损失去更新参数,而可能是在一系列操作完成后才能得到一个最终的奖励数值(围棋来说就是一盘比赛结束后的胜负)。因此常规做法是将最后的奖励数值权重平分到每一步操作上,更复杂的RL算法本质都在调整这一步的分配权重
6. AlphaGo中,首先用已有数据集通过监督学习训练了一个基于策略的神经网络。然后通过两个神经网络互相对战刷取了大量数据进行强化学习,同时用这些数据训练出了一个基于价值的神经网络
7. AlphaZero的训练舍弃了第一步的监督学习过程展现出了更好的结果,证明带监督学习的AlphaGo更容易被人类思维束缚
感想:
1. 奖励数值权重平分到每一步操作和另一种越靠后的权重越大感觉上是不合理的,很多情况都存在局部最优解不等于全局最优解,有没有可能训练另一个模型去分配每一步的权重比例呢
2. Reward hacking还挺好玩的,经常能看到很多好玩的训练失败的例子,不过感觉本质还是环境不完全拟合或者奖励模型有问题?
3. 第一次看到对抗类场景两个神经网络可以互相刷数据的时候有点震撼,白拿的数据啊还不用打标(感觉GAN的思想也比较类似)
#每日精选文章#
展开
评论
点赞
#每日精选文章# 来自杀戮尖塔的工作室,他们在Godot引擎上快速开发了一款小游戏来评估Godot引擎是否真正可以用于制作独立游戏。各方面都介绍的非常详细并且展示了一个纯代码实现卡牌逻辑的方案……比真正规范化项目要简单的多,可能游戏项目中纯代码编程会更适应AI发展趋势?
3
2
#每日精选文章# 讲解清晰易懂,有很多非科班不会关注的知识点,学到很多小知识
评论
点赞
#每日精选文章# 少见的AI应用侧的架构理论科普,可以窥见一丝未来Agent应用的发展趋势
评论
3
#每日精选文章# 【科普讲座】物理学家能为AI做什么?|伊辛模型,神经网络,玻尔兹曼机,类脑计算…
本来以为看不懂没想到不懂物理也能看懂!先是从物理学的角度重新介绍了一遍基础的神经网络架构,然后介绍的类脑模型和概率计算机简直看到了下一次互联网革命的开端。最后的自主学习或许就是现在人们能想象的到的最接近超级人工智能的东西吧……
本来以为看不懂没想到不懂物理也能看懂!先是从物理学的角度重新介绍了一遍基础的神经网络架构,然后介绍的类脑模型和概率计算机简直看到了下一次互联网革命的开端。最后的自主学习或许就是现在人们能想象的到的最接近超级人工智能的东西吧……
展开
评论
点赞
#每日精选文章# 《AI 正在培养一代文盲程序员》
深有同感。以前在不熟悉的领域要花很多时间研究,现在直接问AI就好了。虽然问题是解决了,但是并没有通过学习留下记忆,也不知道AI提供的解决方案正确与否。所以对于重复的基础代码、以及微微涉及的其他领域知识我会使用AI提升效率,自己钻研的领域还是以学习为主。
深有同感。以前在不熟悉的领域要花很多时间研究,现在直接问AI就好了。虽然问题是解决了,但是并没有通过学习留下记忆,也不知道AI提供的解决方案正确与否。所以对于重复的基础代码、以及微微涉及的其他领域知识我会使用AI提升效率,自己钻研的领域还是以学习为主。
展开
评论
点赞
#每日精选文章# 《Canva 设计中的反向图片搜索替换》
才意识到原来版权图片过期是需要人为替换的,AI对于图片相似度的判断精度也远超想象。文章写的很详细,从分析需求开始一步步介绍技术选型、训练对比直到商业应用,学到了很多。
才意识到原来版权图片过期是需要人为替换的,AI对于图片相似度的判断精度也远超想象。文章写的很详细,从分析需求开始一步步介绍技术选型、训练对比直到商业应用,学到了很多。
评论
点赞