首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
wakacaca
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
计算机视觉(2)随记
在Mat类中的dim一定是大于等于2的。 获取到图像返回*data,没有获取到则返回Null,不要用指针来判断有木有数据,最好使用现有提供的判断函数。 注意:并不是所有的mat都可以存成图像文件。好像只支持8V单通道和3通道,16V的支持png,jpeg2000。写文件的时候是…
计算机视觉(1)随记
对图像处理来说:输入的是图像,输出的还是图像。 自动驾驶汽车目前技术已经非常成熟,只是在厂商,保险公司,以及各地区法律之间还需要权衡的问题。 医疗上的人脑手术,通过骨骼模型进行3维投影 找到病变的位置,来辅助医生做手术。 以前的电影拍摄需要使用道具,现在的电影制作是在人的头上戴…
递归神经网络(RNN)随记
想法:在之后的输入要把之前的信息利用起来。W3就相当于对中间信息进行一个保留。 X和U组合成一个特征图,A表示一个记忆单元。 V矩阵相当于对St进行一个全连接的操作。最终的输出需要通过softmax将向量转化成概率的形式。RNN最适合做自然语言处理。图像处理上没有要求前后关联。…
强化学习与深度,神经网络的结合随记
84*84*4表示一个state,4表示4帧图像。 每个像素点都有0-255种可能取值,256的84*84*4次幂表示4张图全部像素点的总共可能性取值。说明如果全部像素点都拿来做state,那Q-table就太大了。 改变每个像素点的值,转换为黑白图像:0代表黑色,255代表白…
强化学习随记
状态:当前智能体所处的一个状态。 要进行的一个下一步的操作,AlphaGo的落子的操作我们称之为行为,往哪个方向走(上下左右)。 奖励:每一步行为之后都会有一个结果,对不同的结果都会有一个奖励的值,如果你学习了我给你一个奖励,如果你打球了(没学习)我就给你一个惩罚。每一步操作都…
物体检测随记
分类任务 猫还是狗。 第一种解决方案先找出来一些框,再对这些款做一些分类的操作。通过Selective Search利用图像上文理、颜色特征做一些组合,看那些小区域的特征是比较相似的 然后合并成一个大的区域。先找出来一些框,然后对这些框做物体分类的任务。 这种方法显得有些笨,因…
分类与回归任务随记
分类任务:输入一个东西,识别出这个东西的所属类别。Location相当于定位,比如定位图像当中所有的物体。 分类+回归:即知道这个猫还要将猫定位出来。 Location输出的是坐标值。 给定真实值:类别和位置。那么预测值和真实值之间会有个差异,让预测值的框不断的去拟合真实值框之…
经典网络架构介绍随记
AlexNet不再使用,因为现在有比这个更好的网络。 VGGNet效果要比AlexNet网络要高那么10个百分点。VGGNet对每一层的参数设置都是一样的。VGGNet有2个版本:16和19层。
设计卷积神经网络小技巧随记
感受眼就是特征图上的一个点对应原始图像的区域大小。感受眼是相对原图来说的,第二层卷积对应第一层卷积是3*3大小,对应到原图则是5*5大小。所以第二层卷积得到的特征图中的每个点的感受眼是5*5的。层数越多,那么后面感受眼的范围就会越大。感受眼的大小意味着特征点对应着原始图像的大小…
网络模型训练技巧
事先对图像数据进行处理。比如有10万的数据,现在对这些数据都进行一次变换,那么就有了20万数据。 最常见的操作就是对数据进行翻倍,翻10-20倍都是有可能的。 水平翻转,这种操作最常见也最实用,因为没有任何瑕疵。 当出现例如人脸被部分遮住的情况,为了让计算机识别这种,我们可以人…
下一页
个人成就
文章被点赞
39
文章被阅读
41,226
掘力值
1,226
关注了
0
关注者
14
收藏集
0
关注标签
7
加入于
2018-07-16