顶会论文

顶会论文

顶会论文

顶会论文翻译-解析

暂无订阅共6篇文章创建于2023-07-22

LayoutLMv2:多模态预训练用于富含视觉元素的文档理解【论文翻译】

LayoutLMv2提出了空间感知的自注意机制，其中包括用于标记对的2-D相对位置表示。与LayoutLM用于模拟页面布局的绝对2-D位置嵌入不同，相对位置嵌入明确地提供了更广泛的上下文空间建模

2年前
925
3
评论

LayoutLMv2:多模态预训练用于富含视觉元素的文档理解【论文翻译】

LayoutLM【论文翻译】

Document AI,或称为文档智能，是一个相对较新的研究领域，涉及到自动读取、理解和分析商业文档的技术。我们如何在LayoutLM框架中扩展以共同建模文本和布局信息。

2年前
1.8k
1
评论

OCR数据集 : Benchmarking Chinese Text Recognition: Datasets 【论文翻译】

文本识别在过去的十年中取得了快速的进展。根据主要特点，文本识别方法可以分为几个类别，包括基于CTC的方法、基于矫正的方法等。从这些类别中，我们选择了八种代表性的方法作为基线，这些方法大多用于文本识别

2年前
1.2k
2
评论

OCR数据集 : Benchmarking Chinese Text Recognition: Datasets 【论文翻译】

Personalize Segment Anything Model with One Shot【论文翻译】

通过大数据预训练驱动，分段任意模型（Segment Anything Model，SAM）已被证明是一个强大且可提示的框架，革新了分割模型。尽管其具有普遍性，但在没有人力提示的情况下，定制SAM以适

2年前
838
2
1

Personalize Segment Anything Model with One Shot【论文翻译】

Segment Anything【论文翻译】

论文基础信息如下 Abstract 我们介绍Segment Anything（SA）项目：这是一个全新的任务、模型和图像分割数据集。通过在数据收集循环中使用我们高效的模型，我们建立了迄今为止最大的分割

2年前
2.3k
3
评论

Segment Anything【论文翻译】

SVTR: Scene Text Recognition with a Single Visual Model 【论文翻译】

我们提出了一种用于识别的定制文本模型SVTR。它引入了局部和全局混合块，分别用于提取类似笔画的特征和字符间的依赖关系，结合多尺度骨干网络，形成了多粒度的特征描述。

2年前
1.1k
4
评论

SVTR: Scene Text Recognition with a Single Visual Model 【论文翻译】