2024/8/1 由华中科技大学和Adobe公司联合发布WAS数据集,专注于艺术文本分割任务。
文本分割方法在分割常规文本方面取得显著进展,例如文本图像生成、文本编辑、文本移除和文本风格迁移。
目前遇到挑战,但是在 包含艺术文本的场景中表现不佳。
由于艺术文本因其多变和复杂的局部笔画形状以及复杂的全局拓扑结构,使得现有的文本分割方法难以准确处理。
为了解决这个问题,提出WASNet模型。
数据集地址:WAS|艺术文本分割数据集
我们先来看看数据集
WAS-R 数据集:
由 7100 张图像组成,这些图像来源于多种不同的场景,包括海报、卡片、封面、标志、商品、路标、广告牌、数字设计和手写文本。
在这些图像中,4100 张用作训练数据集,其余的 3000 张图像构成了测试数据集。
艺术文本可以根据捕获图像的方式被分为两大类。
一类艺术文本图像是由相机在各种场景中拍摄的,例如路标牌。
另一类图像则是直接从设计软件中导出的,如海报文件。在数据收集过程中,我们特别平衡了这两类图像,以创建一个多样化的数据集,用于研究和开发。
添加图片注释,不超过 140 字(可选)
WAS-S 合成数据集构建
包含100k图像-掩码对,以增强模型的泛化性能。
添加图片注释,不超过 140 字(可选)
WASNet模型:
该模型包含一个带有层级动量查询(Layer-wise Momentum Query, LMQ)的解码器,用于处理艺术文本变化多端的局部笔画形状;同时设计了一个骨架辅助头(Skeleton-assisted Head),指导模型关注全局结构。
数据集的应用
1、文本识别:
提高对艺术风格文本的识别精度,对于自动化文档分析和数据录入尤其有用。
2、文本图像生成:
在设计和创意上,利用艺术文本分割,可以根据给定的风格或模板生成新的文本图像。
3、文本的编辑:
在不破坏图像的整体外观前提下,在图像中对艺术文本进行编辑,比如文本的内容、字体或颜色。或者移除不需要的文本。或者对艺术文本的背景替换成不同的场景,用于创建新的视觉内容。