ThinPrep Cytology Test(TCT)图像数据集介绍
一、什么是 TCT?
TCT(ThinPrep Cytology Test,薄层液基细胞学检测)是一种用于宫颈癌及其癌前病变筛查的技术。它通过将采集到的宫颈脱落细胞制备成薄层涂片,避免了传统巴氏涂片中细胞重叠、血液污染等问题,图像清晰、细胞结构保存良好。
TCT 检查是宫颈癌筛查的金标准之一,其图像数据集广泛应用于自动细胞识别、分类、分割和辅助诊断系统的研究。
TCT图像数据集的特点
| 特征 | 说明 |
|---|---|
| 图像来源 | 来自液基薄层细胞学制片,显微镜拍摄 |
| 图像内容 | 包含完整的单个或多个细胞图像,显示细胞核和细胞质 |
| 常见格式 | JPG / PNG / TIFF |
| 分辨率 | 高分辨率,多数 > 1000x1000 |
| 类别标注 | 通常包含正常、轻度/中度/重度病变、癌变等 |
| 适用任务 | 图像分类、目标检测、语义分割、实例分割等 |
TCT图像数据集常见类别(病理学)
TCT 图像中常见的细胞分类:
- 正常鳞状上皮细胞(Normal Squamous)
- 中间鳞状细胞(Intermediate Cells)
- 柱状上皮细胞(Columnar Cells)
- 非典型鳞状细胞(ASC-US / ASC-H)
- 轻度鳞状上皮内病变(LSIL)
- 中度/重度鳞状上皮内病变(HSIL)
- 鳞状细胞癌(SCC)
- 腺癌相关细胞(Adenocarcinoma)
研究应用
TCT 数据集在以下研究方向中被广泛使用:
- 宫颈癌辅助筛查
- 异常细胞分类与检测
- 细胞核语义分割与实例分割
- 多模态医学图像诊断系统开发
- 医学图像增强和标注辅助工具训练
常见的 TCT 图像数据集
优势与挑战
优势:
- 图像质量高,细胞结构完整
- 更贴近临床真实场景
- 适合训练深度学习模型
挑战:
- 细胞形态多样,类别界限模糊
- 类别分布不均,易造成过拟合
- 染色差异、背景噪声处理复杂
二、Herlev Dataset 宫颈细胞图像数据集介绍
概述
Herlev Dataset 是由 丹麦 Herlev 医院 与 Technical University of Denmark 共同建立的宫颈细胞图像数据集,广泛用于宫颈癌的自动筛查研究任务。
- 图像内容:每张图像包含一个细胞(包含细胞核和细胞质)
- 采集方式:显微镜拍摄图像,原始图像分辨率统一处理
- 应用方向:细胞分类、图像分割、异常检测等
数据集规模与结构
- 总图像数:917 张单细胞图像
- 类别数量:7 类
- 图像尺寸:平均 144 × 144 像素(已裁剪/居中)
- 文件格式:通常为 PNG、BMP 或 TIFF(取决于下载源)
- 标注形式:每张图像附带细胞类别标签
七个细胞类别
Herlev 数据集根据细胞类型和病变程度分为以下 7 类:
| 类别编号 | 类别名称(英文) | 中文翻译 | 说明 |
|---|---|---|---|
| 1 | Superficial squamous | 表层鳞状上皮细胞 | 正常 |
| 2 | Intermediate squamous | 中层鳞状上皮细胞 | 正常 |
| 3 | Columnar epithelial | 柱状上皮细胞 | 正常 |
| 4 | Mild dysplasia | 轻度异常(轻度病变) | 异常 |
| 5 | Moderate dysplasia | 中度异常(中度病变) | 异常 |
| 6 | Severe dysplasia | 重度异常(重度病变) | 异常 |
| 7 | Carcinoma in situ | 原位癌 | 异常 |
注:前三类为 正常细胞,后四类为 不同阶段的异常细胞,反映宫颈病变从早期到癌前的演变过程。
类别分布
| 类别 | 图像数量 |
|---|---|
| 正常细胞(前3类) | 242 张 |
| 异常细胞(后4类) | 675 张 |
| 总计 | 917 张 |
Herlev Dataset 的优点
✅ 高质量细胞图像(无重叠、背景干净)
✅ 标签准确,由病理医
三、SIPaKMeD 宫颈细胞图像数据集介绍
简介
SIPaKMeD(Single-cell Pap smear Image based on Papanicolaou staining Method Dataset) 是由希腊帕特雷大学(University of Patras)发布的一个 基于薄层细胞学(ThinPrep)和巴氏染色法 的宫颈细胞图像数据集,广泛应用于细胞分类、图像分割、宫颈癌筛查等研究任务。
- 数据集名称含义:SIPaKMeD 是 Single-cell Image based on Papanicolaou staining Method Dataset 的缩写
- 采集方式:利用 ThinPrep 液基细胞技术 + 显微镜图像采集 + Papanicolaou 染色
数据集规模与结构
| 项目 | 数值/说明 |
|---|---|
| 单细胞图像数量 | 4,049 张 |
| 图像尺寸 | 256×256 像素(居中裁剪) |
| 图像类型 | RGB 彩色图像 |
| 图像格式 | PNG / TIFF |
| 类别数 | 5 类 |
| 标注粒度 | 每个图像一个单细胞及其类别 |
| 分割信息 | 提供了部分细胞核与胞质的 分割掩码 |
五类细胞类型(标注标签)
SIPaKMeD 将图像标注为 5 类常见宫颈细胞类型,具体如下:
| 类别编号 | 类别名称(英文) | 中文翻译 | 健康状态 |
|---|---|---|---|
| 1 | Superficial-intermediate | 表层/中间鳞状细胞 | 正常 |
| 2 | Parabasal | 基底细胞 | 正常 |
| 3 | Koilocytotic | 空泡细胞 | 异常 |
| 4 | Dyskeratotic | 角化不良细胞 | 异常 |
| 5 | Metaplastic | 化生细胞 | 可疑/病变 |
样本类别分布
| 类别 | 数量 |
|---|---|
| Superficial-intermediate | 793 |
| Parabasal | 825 |
| Koilocytotic | 825 |
| Dyskeratotic | 813 |
| Metaplastic | 793 |
| 总计 | 4,049 |
💡 类别分布相对平衡,适合用于监督学习和模型对比实验。
数据特点
优点:
- 图像居中处理,背景统一
- 每张图只含一个细胞,干净、无重叠
- 类别分布均衡,有利于训练模型
- 图像清晰,染色自然,细胞结构明显
- 附带掩码,适用于分割任务
挑战:
- 异常细胞间形态差异微妙
- 类别标签易混淆(如 Metaplastic 与 Koilocytotic)
- 背景颜色略有染色变化
适用研究方向
- 图像分类(正常 vs 异常,或 5 类)
- 图像分割(细胞核、胞质区域)
- 异常细胞检测
- 小样本学习与迁移学习实验
三、 CervixData 数据集简介
CervixData,也称为 Intel & MobileODT Cervical Cancer Screening Dataset,是用于宫颈类型分类任务的医学图像数据集,最初用于 Kaggle 与 MobileODT 联合举办的宫颈筛查竞赛。
数据来源与背景
- 数据于 Kaggle 大赛:“Intel & MobileODT Cervical Cancer Screening Competition” 中发布,目的是训练模型根据图像识别宫颈类型,帮助医生判断治疗策略 :contentReference[oaicite:1]{index=1}。
- 图像由 MobileODT 的 EVA(Enhanced Visual Assessment)设备采集 :contentReference[oaicite:2]{index=2}。
数据规模与结构
| 属性 | 参数说明 |
|---|---|
| 总图像数量 | 训练:约1481 张,测试:512 张;其他集:4633 张(部分研究使用):contentReference[oaicite:3]{index=3} |
| 类别数量 | 3 种宫颈类型(Type 1 / Type 2 / Type 3):contentReference[oaicite:4]{index=4} |
| 标注信息 | 宫颈区域的轮廓或边界注释 :contentReference[oaicite:5]{index=5} |
| 图像质量 | 存在模糊、光照不佳、镜检器具遮挡等实际采集中的噪声问题 :contentReference[oaicite:6]{index=6} |
三类宫颈类型说明
- Type 1:通常无需额外筛查
- Type 2:建议进一步筛查
- Type 3:需要更深入的诊断或干预措施
- 类型划分基于医生的病理筛查建议,用于辅助判断下一步治疗级别 :contentReference[oaicite:7]{index=7}。
研究与应用示例
- 分类模型训练:多用于 CNN、ResNet 等架构进行宫颈类型分类模型训练 :contentReference[oaicite:8]{index=8}。
- 区域标注利用:通过宫颈边界或轮廓注释,实现图像预处理与定位任务 :contentReference[oaicite:9]{index=9}。
- 真实场景挑战:图像中存在模糊、光照不均、遮挡等,使训练模型需要对复杂医疗图像具备鲁棒性。
四、Large Annotated Cervical Cytology Dataset
简介
该数据集旨在助力 AI 模型对宫颈癌筛查中的异常细胞进行检测与识别,提供详尽的图像级标注。
- 来源:采集自黑龙江省妇幼保健院(Heilongjiang Maternal and Child Health Hospital)报告为异常的 TCT 滤片。这些滤片经过数字化处理并切割成多个图像块。:contentReference[oaicite:1]{index=1}
数据集规模与格式
| 属性 | 内容 |
|---|---|
| 图像数量 | 8,037 张 |
| 图像尺寸 | 每张 2048 × 2048 像素 |
| 图像格式 | PNG |
| 标注格式 | XML(标注异常细胞边界) |
特点
该数据集具有如下优点:
- 高分辨率(每张图像覆盖多个细胞区域)
- 详尽、可靠的注释(多专家审核)
- 开放许可(CC BY)
- 实用性强,可作为训练精细检测模型的重要资源