首页
首页
沸点
课程
直播
活动
竞赛
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
白话Python
掘友等级
北京邮电大学
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
14
文章 14
沸点 0
赞
14
返回
|
搜索文章
赞
文章( 14 )
沸点( 0 )
Python-for循环的内部机制
Python中,使用for循环可以迭代容器对象中的元素,这里容器对象包括是列表(list)、元组(tuple)、字典(dict)、集合(set)等。但是,为什么这些对象可以使用for循环进行操作呢? 错误信息提示,'TestRange' object 不是可迭代的对象。那么,什…
Python-关于正则表达式的总结
正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),用于字符串的匹配和提取等操作。正则表达式在所有编程语言中都是通用的。 . : 匹配任意1个字符(除了\n) 在正则表达式的首部添加^,意味着待匹配的字符串从首部就要和正则式匹配。类似…
Python中多任务的实现
多任务就是操作系统可以同时运行多个任务。多任务的实现方式包括: Python中,使用multiprocessing模块实现多进程。 其中Process是一个进程类,可实例化一个进程对象。 当启动大量子进程时,为了防止系统资源占用过高,需采用进程池的方式,循环利用进程实现多任务。…
强化学习总结04 无模型方法之蒙特卡洛
所谓“无模型”,表示环境模型是未知的,即马尔可夫决策过程中的 和 是未知的。 上式中用到了 ,因此,无模型的情况无法通过动态规划的方法解决,只能通过采样经验来估计值函数。 行为策略需要比目标策略更具备探索性。即,在每个状态下,目标策略的可行动作是行为策略可行动作的子集 重要性采…
什么是Python中类的__slot__属性?
Python中默认用一个字典来保存一个对象的实例属性,使得我们在运行时可以任意设置新属性。 但是,对于已知固有属性的小型类来说,这个字典浪费了很多内存。(由于可设置新属性,Python不能在对象创建时直接分配一个固定量的内存保存所有属性) 因此,如果创建成千上万个这样的小类,P…
Python中关于轴axis的理解
axis(轴)是编程语言中常见的概念, 它的本质是数组的层级. axis=1, 表示次外层的[], 相应的arr.shape[1]为 4, 这就表示, 在最外层的3个数组元素中, 每个数组元素中又有4个元素。 若函数中axis=i, 则沿着第i个下标变化、其余下标都不变的方向进…
一文看懂Python中的浅拷贝和深拷贝
深拷贝:copy.deepcopy() 拷贝所有的数据,存入一块新的内存区域中。 如果对一个拥有可变类型数据的元组进行拷贝,那么copy.deepcopy()就是依然是拷贝所有数据, copy.copy()拷贝的是指向。 以上可知,切片操作只拷贝了 list 的最外层,效果和 …
强化学习总结 03-动态规划
最优子结构: 满足最优性原理,优的解可以被分解成子问题的最优解。 回顾贝尔曼期望方程,满足递归形式。【当前状态的值函数 = E(当前的奖励+后继状态×衰减系数) 】,可以把问题分解成子问题 使用动态规划解决强化学习问题时,要求知道 MDPs 的所有元素。这是因为强化学习问题中最…
强化学习总结01 基本概念
1. 概述 强化学习是智能体(Agent)与环境(Environment)不断交互, 不断提高自己的决策能力的过程. 所学习的样本来自于与环境的交互。而非像传统机器学习的样本是现有的。 。 2. 强化学习的组成 回报值 又称累积折扣奖励(cumulative discounte…
强化学习总结02 马尔可夫决策过程
马尔可夫决策过程(Markov Decision Processes, MDPs)是对强化学习问题的数学描述。 要求环境是全观测的。 所以要求环境是全观测的,(如果是部分观测的话,状态信息有缺失)。 状态转移概率指从一个马尔可夫状态 s 跳转到后继状态 (successor s…
下一页
个人成就
文章被点赞
31
文章被阅读
9,963
掘力值
377
关注了
2
关注者
86
收藏集
2
关注标签
4
加入于
2020-03-15