Thinprep Cytology Test (TCT) image dataset

204 阅读7分钟

ThinPrep Cytology Test(TCT)图像数据集介绍

一、什么是 TCT?

TCT(ThinPrep Cytology Test,薄层液基细胞学检测)是一种用于宫颈癌及其癌前病变筛查的技术。它通过将采集到的宫颈脱落细胞制备成薄层涂片,避免了传统巴氏涂片中细胞重叠、血液污染等问题,图像清晰、细胞结构保存良好。

TCT 检查是宫颈癌筛查的金标准之一,其图像数据集广泛应用于自动细胞识别、分类、分割和辅助诊断系统的研究。


TCT图像数据集的特点

特征说明
图像来源来自液基薄层细胞学制片,显微镜拍摄
图像内容包含完整的单个或多个细胞图像,显示细胞核和细胞质
常见格式JPG / PNG / TIFF
分辨率高分辨率,多数 > 1000x1000
类别标注通常包含正常、轻度/中度/重度病变、癌变等
适用任务图像分类、目标检测、语义分割、实例分割等

TCT图像数据集常见类别(病理学)

TCT 图像中常见的细胞分类:

  1. 正常鳞状上皮细胞(Normal Squamous)
  2. 中间鳞状细胞(Intermediate Cells)
  3. 柱状上皮细胞(Columnar Cells)
  4. 非典型鳞状细胞(ASC-US / ASC-H)
  5. 轻度鳞状上皮内病变(LSIL)
  6. 中度/重度鳞状上皮内病变(HSIL)
  7. 鳞状细胞癌(SCC)
  8. 腺癌相关细胞(Adenocarcinoma)

研究应用

TCT 数据集在以下研究方向中被广泛使用:

  • 宫颈癌辅助筛查
  • 异常细胞分类与检测
  • 细胞核语义分割与实例分割
  • 多模态医学图像诊断系统开发
  • 医学图像增强和标注辅助工具训练

常见的 TCT 图像数据集

image.png


优势与挑战

优势:

  • 图像质量高,细胞结构完整
  • 更贴近临床真实场景
  • 适合训练深度学习模型

挑战:

  • 细胞形态多样,类别界限模糊
  • 类别分布不均,易造成过拟合
  • 染色差异、背景噪声处理复杂

二、Herlev Dataset 宫颈细胞图像数据集介绍

概述

Herlev Dataset 是由 丹麦 Herlev 医院Technical University of Denmark 共同建立的宫颈细胞图像数据集,广泛用于宫颈癌的自动筛查研究任务。

  • 图像内容:每张图像包含一个细胞(包含细胞核和细胞质)
  • 采集方式:显微镜拍摄图像,原始图像分辨率统一处理
  • 应用方向:细胞分类、图像分割、异常检测等

数据集规模与结构

  • 总图像数:917 张单细胞图像
  • 类别数量:7 类
  • 图像尺寸:平均 144 × 144 像素(已裁剪/居中)
  • 文件格式:通常为 PNG、BMP 或 TIFF(取决于下载源)
  • 标注形式:每张图像附带细胞类别标签

七个细胞类别

Herlev 数据集根据细胞类型和病变程度分为以下 7 类:

类别编号类别名称(英文)中文翻译说明
1Superficial squamous表层鳞状上皮细胞正常
2Intermediate squamous中层鳞状上皮细胞正常
3Columnar epithelial柱状上皮细胞正常
4Mild dysplasia轻度异常(轻度病变)异常
5Moderate dysplasia中度异常(中度病变)异常
6Severe dysplasia重度异常(重度病变)异常
7Carcinoma in situ原位癌异常

注:前三类为 正常细胞,后四类为 不同阶段的异常细胞,反映宫颈病变从早期到癌前的演变过程。


类别分布

类别图像数量
正常细胞(前3类)242 张
异常细胞(后4类)675 张
总计917 张

Herlev Dataset 的优点

✅ 高质量细胞图像(无重叠、背景干净)
✅ 标签准确,由病理医

三、SIPaKMeD 宫颈细胞图像数据集介绍

简介

SIPaKMeD(Single-cell Pap smear Image based on Papanicolaou staining Method Dataset) 是由希腊帕特雷大学(University of Patras)发布的一个 基于薄层细胞学(ThinPrep)和巴氏染色法 的宫颈细胞图像数据集,广泛应用于细胞分类、图像分割、宫颈癌筛查等研究任务。

  • 数据集名称含义:SIPaKMeD 是 Single-cell Image based on Papanicolaou staining Method Dataset 的缩写
  • 采集方式:利用 ThinPrep 液基细胞技术 + 显微镜图像采集 + Papanicolaou 染色

数据集规模与结构

项目数值/说明
单细胞图像数量4,049 张
图像尺寸256×256 像素(居中裁剪)
图像类型RGB 彩色图像
图像格式PNG / TIFF
类别数5 类
标注粒度每个图像一个单细胞及其类别
分割信息提供了部分细胞核与胞质的 分割掩码

五类细胞类型(标注标签)

SIPaKMeD 将图像标注为 5 类常见宫颈细胞类型,具体如下:

类别编号类别名称(英文)中文翻译健康状态
1Superficial-intermediate表层/中间鳞状细胞正常
2Parabasal基底细胞正常
3Koilocytotic空泡细胞异常
4Dyskeratotic角化不良细胞异常
5Metaplastic化生细胞可疑/病变

样本类别分布

类别数量
Superficial-intermediate793
Parabasal825
Koilocytotic825
Dyskeratotic813
Metaplastic793
总计4,049

💡 类别分布相对平衡,适合用于监督学习和模型对比实验。


数据特点

优点:

  • 图像居中处理,背景统一
  • 每张图只含一个细胞,干净、无重叠
  • 类别分布均衡,有利于训练模型
  • 图像清晰,染色自然,细胞结构明显
  • 附带掩码,适用于分割任务

挑战:

  • 异常细胞间形态差异微妙
  • 类别标签易混淆(如 Metaplastic 与 Koilocytotic)
  • 背景颜色略有染色变化

适用研究方向

  • 图像分类(正常 vs 异常,或 5 类)
  • 图像分割(细胞核、胞质区域)
  • 异常细胞检测
  • 小样本学习与迁移学习实验

三、 CervixData 数据集简介

CervixData,也称为 Intel & MobileODT Cervical Cancer Screening Dataset,是用于宫颈类型分类任务的医学图像数据集,最初用于 Kaggle 与 MobileODT 联合举办的宫颈筛查竞赛。


数据来源与背景

  • 数据于 Kaggle 大赛:“Intel & MobileODT Cervical Cancer Screening Competition” 中发布,目的是训练模型根据图像识别宫颈类型,帮助医生判断治疗策略 :contentReference[oaicite:1]{index=1}。
  • 图像由 MobileODT 的 EVA(Enhanced Visual Assessment)设备采集 :contentReference[oaicite:2]{index=2}。

数据规模与结构

属性参数说明
总图像数量训练:约1481 张,测试:512 张;其他集:4633 张(部分研究使用):contentReference[oaicite:3]{index=3}
类别数量3 种宫颈类型(Type 1 / Type 2 / Type 3):contentReference[oaicite:4]{index=4}
标注信息宫颈区域的轮廓或边界注释 :contentReference[oaicite:5]{index=5}
图像质量存在模糊、光照不佳、镜检器具遮挡等实际采集中的噪声问题 :contentReference[oaicite:6]{index=6}

三类宫颈类型说明

  • Type 1:通常无需额外筛查
  • Type 2:建议进一步筛查
  • Type 3:需要更深入的诊断或干预措施
  • 类型划分基于医生的病理筛查建议,用于辅助判断下一步治疗级别 :contentReference[oaicite:7]{index=7}。

研究与应用示例

  • 分类模型训练:多用于 CNN、ResNet 等架构进行宫颈类型分类模型训练 :contentReference[oaicite:8]{index=8}。
  • 区域标注利用:通过宫颈边界或轮廓注释,实现图像预处理与定位任务 :contentReference[oaicite:9]{index=9}。
  • 真实场景挑战:图像中存在模糊、光照不均、遮挡等,使训练模型需要对复杂医疗图像具备鲁棒性。

四、Large Annotated Cervical Cytology Dataset

简介

该数据集旨在助力 AI 模型对宫颈癌筛查中的异常细胞进行检测与识别,提供详尽的图像级标注。

  • 来源:采集自黑龙江省妇幼保健院(Heilongjiang Maternal and Child Health Hospital)报告为异常的 TCT 滤片。这些滤片经过数字化处理并切割成多个图像块。:contentReference[oaicite:1]{index=1}

数据集规模与格式

属性内容
图像数量8,037 张
图像尺寸每张 2048 × 2048 像素
图像格式PNG
标注格式XML(标注异常细胞边界)

image.png

特点

该数据集具有如下优点:

  • 高分辨率(每张图像覆盖多个细胞区域)
  • 详尽、可靠的注释(多专家审核)
  • 开放许可(CC BY)
  • 实用性强,可作为训练精细检测模型的重要资源