从零点一开始机器学习之开发过程(1)数据准备

197 阅读1分钟

请在正文的第一句加入 “我正在参加「初夏创意投稿大赛」详情请看:初夏创意投稿大赛

从零点一开始机器学习之开发过程(1)数据准备

前言

端午节到了,夏天也就来了,在夏天最美的生活是空调wifi西瓜,西瓜只有夏天好比包包之于女友,满分之于学生。但是夏天的水果可不单单是西瓜啊,葡萄,芒果,李子等。 正好前段时间入门了一下机器学习的图像分类,那么我们就设计一个夏日专属的图像分类系统吧。

一、数据准备

相关的数据集的准备可以从网上收集,下载开源的数据集,合法的使用爬虫爬取一定的数据, 考虑到这个项目主要是为了学习机器学习的入门做准备的,故图像分类暂定为西瓜,芒果,葡萄

二、公开数据集获取

部分数据来自开源数据集Fruit-Images-Dataset-master.zip 在这里插入图片描述

Fruit-Images-Dataset数据集中水果种类还是比较完善的,同时也包含了大量蔬菜的图像,但是水果图像基本上都是近距离拍摄的图片,没有远距离图像,如西瓜数据,都是一个完整的西瓜,没有切开的,或者果盘中的西瓜

三 爬虫获取

爬虫的获取需要满足法律的要求,尽量合理使用,尤其是商业使用时,本次项目目标数据每一个分类120张,其中100张训练,20张验证。(数据量虽然很小,但是主要是让刚接触的同学熟悉流程,引导入门,忽略了精度和准确度)