这是我参与「第三届青训营 -后端场」笔记创作活动的的第4篇笔记
在将一亿量级的数据集放到resnet模型中遇到了许多问题,一开始还可以正常处理,速度保持在一个小时处理10万左右的数据,但是之后因为学校封楼的原因,将服务器搬到了别的地方进行运行,因为那个地方电源的功率很小,所以导致自从搬过去之后,处理数据的速度大幅下降了,甚至有时候三个小时都无法处理10万数据,而且时常会出现一个文件没有跑完就卡死不动的情况,所以这中间一直时刻盯着程序,出现卡死现象立马处理,使用ubuntu的top命令发现python的cpu利用率上限限定在70%左右.
自从将服务器搬回实验室之后,功率变大,top命令下python的利用率可以显著提高了,也恢复了之前的处理url的速度,之前时常有的卡死现象也不存在了.所以发现电源的功率对程序执行速度还是有比较大的影响,这也是之前在教科书上很少接触的知识.
因为一亿量级的数据,对于我和另一位负责的同学拥有的机器来说比较难以全部使用,以及数据级的大小过于大,对于我们的存储资源也很难全部利用,所以首先考虑,选取一部分数据,逐步进行测试,查看是否随着数据的提升,效果逐渐变好,经过测试发现,数据的量每一次提升,以图搜图的效果都会进一步提升,所以经过和另一位同学的协商,不使用全部数据,而是使用一部分,比如几百万,来作为最终的结果,如果硬件资源充足的话,能够将所有数据都经过模型转化,那么以图搜图的效果也会进一步提升.