超分重建:TATT用于空间变形鲁棒场景文本图像超分辨率的文本注意网络

1,064 阅读4分钟

持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第9天,点击查看活动详情

摘要

场景文本图像超分辨率

  • 目的:提高LR图像中文本的分辨率和可读性
  • 问题:对于空间变形的文本,尤其是旋转和曲线形状的文本,仍难以重建SR图像
  • 原因:当前基于CNN的方法采用局部性操作,无法有效处理由变形引起的变化

TATT:基于CNN的文本注意力网络

  • 文本识别模块:提取文本语义作为文本先验信息
  • 基于Transformer的模块:利用全局注意力机制在文本重建前对文本进行语义引导
  • 文本结构一致性损失:对规则和变形文本的重建施加结构一致性来细化视觉外观

实验结论

  • TATT提高了定量指标PSNR和SSIM
  • TATT显著提高了下游文本识别任务中的识别精度,尤其是对于具有多方向和弯曲形状的文本实例

引言

基于深度学习的STISR方法

  • 使用退化和原始文本图像对作为训练数据集训练DCNN:CNN具有很强的表达能力,可以从数据中学习各种先验知识
  • TPGSR
    优点
    1、文本语义首先被识别为先验信息,然后用于指导文本重建
    2、具有高水平的先验信息,可以恢复语义正确的文本图像,并具有令人信服的视觉质量
    缺点
    1、通过卷积将文本先验与图像特征合并
    2、两者仅在较小的局部范围内相互作用,限制了文本先验对重建的影响
  • TSRN
    仅采用卷积等局部性操作,无法有效捕获由变形引起的较大位置变化

TATT

  • 文本识别模块:将字符语义识别为文本先验TP
  • TP解释器:基于Transformer的模块在文本先验和图像特征之间执行交叉注意,以实现两者之间的全局交互并捕获两者之间的长距离相关
  • 文本结构一致性损失:测量规则文本和变形文本之间的结构距离

本文贡献

1、使用CNN和Transformer将文本先验与空间变形的文本图像对齐
2、文本结构一致性损失:增强从空间变形的LR文本图像中恢复文本结构的鲁棒性
3、在恢复扭曲和曲线状的LR文本图像上表现了出色的泛化性能

TATT方法

总体架构

image.png

上路径:LR进入TPG将识别概率序列预测为文本先验fP
下路径:LR进入卷积层以提取图像特征fI
融合路径:
1、fP和fI进入TPI计算得到TP图fTM
2、fTM和fI进入重建模块:
5个TPGB:渐进融合fTM和fI
像素洗牌层:提高分辨率

TP解释器

image.png

  • 目的:向图像特征解释文本先验以便于语义引导的影响可以施加到图形域中的相关空间位置
  • 直观想法 将文本先验放大到图像特征的形状再通过卷积合并 卷积的有效范围很小,文本先验的语义无法分配到图像特征中的遥远空间位置
  • TP解释器
    编码器:在文本先验的每个字符的语义之间执行相互关系来编码文本先验,输出增强的语境特征fE 解码器:在增强的上下文特征和图像特征之间执行交叉注意力,以将语义信息解释为图像特征

文本结构一致性损失TSC

  • 目的
  1. 特征表示:CNN模型很难像表示规则文本特征那样表示变形文本特征
  2. 重建:重建的文本图像具有较弱的字符结构,对比度较低,要改善视觉外观
  • 方法
  1. 作用:增加三者输入之间的相似性来减少模型面对空间变形时的性能下降
  2. 输入
    DF(Y):SR→变形
    F(DY):变形→SR
    D(X):HR变形
  3. 三重SSIM(TSSIM):即将两者直接的相似度扩展为三者,μ为均值,σ为标准差,C为小的常数项以避免除数接近0而带来的不稳定性

image.png

  1. L-TSC

image.png

总体损失函数

image.png

  • L-SR:SR输出与HR之间的L2损失
  • L-TP:LR与HR中提取的文本先验之间的L1损失+KL发散