项目地址：ICDAR2PASCAL_VOC

常用的目标识别框架例如 faster R-CNN，SDD 等都提供了对 PASCAL VOC 数据集的接口，而针对于文本识别的数据集 ICDAR2013，ICDAR2015 等与 PASCAL VOC 数据集标注方式有一定差异，该项目就是作为一个数据集转换的小工具出现的。后续会不断完善，增加对 ICDAR 2017，COCO-text 等数据集的支持。

ICDAR2PASCAL_VOC

Convert scene text dataset ICDAR2013, ICDAR2015 to PASCAL_VOC dataset

使用

克隆代码到本地

git clone https://github.com/zazaliu/ICDAR2PASCAL_VOC.git

安装依赖包

pip install -r requirements.txt

ICDAR2013 dataset 转化为 PASCAL_VOC dataset 格式

下载 ICDAR2013 dataset 解压放入 ICDAR2013 文件夹，包含：

训练图像集：Challenge2_Training_Task12_Images
训练标注集：Challenge2_Training_Task1_GT
测试图像集：Challenge2_Test_Task12_Images
测试标注集：Challenge2_Test_Task1_GT

标注格式：xmin, ymin, xmax, ymax, text

举例：38, 43, 920, 215, "Tiredness"

执行

python ICDAR2013/trans.py

生成的数据集保存在 VOC2007 文件夹中

ICDAR2015 dataset 转化为 PASCAL_VOC dataset 格式

下载 ICDAR2015 dataset 解压放入 ICDAR2015 文件夹，包含：

训练图像集：ch4_training_images
训练标注集：ch4_training_localization_transcription_gt
测试图像集：ch4_test_images

注：ICDAR2015 未提供测试标注集

标注格式：x1,y1,x2,y2,x3,y3,x4,y4,text 其中，x1,y1为左上角坐标,x2,y2为右上角坐标,x3,y3为右下角坐标,x4,y4为左下角坐标。

举例：(### 表示文字无法辨认)

377,117,463,117,465,130,378,130,Genaxis Theatre
374,155,409,155,409,170,374,170,###

执行

python ICDAR2015/trans.py