最近在搞模型训练,制作训练集和验证集、测试集的需要,老是需要从原始数据集中,随机抽取一定数量的图片我需要从原始数据集中,随机取出(剪切)一定数量的图片。手动挑选毕竟不能保证随机性,且费时费力。 这篇文章主要向大家介绍解决如何移动文件夹,主要内容包括基础应用、实用技巧、原理机制等方面,希望对大家有所帮助。
import os
import random
import shutil
import numpy as np
def split_train_test(data,test_ratio):
#设置随机数种子,保证每次生成的结果都是一样的
np.random.seed(42)
#permutation随机生成0-len(data)随机序列
shuffled_indices = np.random.permutation(len(data))
#test_ratio为测试集所占的半分比
test_set_size = int(len(data)) * test_ratio
test_indices = shuffled_indices[:test_ratio]
train_indices = shuffled_indices[test_set_size:]
#iloc选择参数序列中所对应的行
return data.iloc[train_indices],data.iloc[test_indices]
#按数量移动
def moveFile(fileDir,tarDir):
pathDir = os.listdir(fileDir) #取图片的原始路径
picknumber=500 # 自定义选取图片数目
sample = random.sample(pathDir, picknumber) #随机选取picknumber数量的样本图片
for name in sample:
shutil.move(fileDir+name, tarDir+name)
# source_file:源路径, target_ir:目标路径
def cover_files(source_dir, target_ir):
for file in os.listdir(source_dir):
source_file = os.path.join(source_dir, file)
if os.path.isfile(source_file):
shutil.copy(source_file, target_ir)
def ensure_dir_exists(dir_name):
"""Makes sure the folder exists on disk.
Args:
dir_name: Path string to the folder we want to create.
"""
if not os.path.exists(dir_name):
os.makedirs(dir_name)
def moveFile(file_dir, save_dir):
ensure_dir_exists(save_dir)
path_dir = os.listdir(file_dir) #取图片的原始路径
filenumber=len(path_dir)
rate=0.1 #自定义抽取图片的比例,比方说100张抽10张,那就是0.1
picknumber=int(filenumber*rate) #按照rate比例从文件夹中取一定数量图片
sample = random.sample(pathDir, picknumber) #随机选取picknumber数量的样本图片
# print (sample)
for name in sample:
shutil.move(fileDir+name, save_dir+name)
if __name__ == '__main__':
file_dir = './img' #源图片文件夹路径
save_dir = './img1' #移动到新的文件夹路径
moveFile(fileDir)
参考网址: