数据集:table-vqa专门训练处理文档类型对象(如图表、表格)的多模特模型

68 阅读2分钟

2024年7月25日, Credit Mutuel Arkea 更新了table-vqa 数据集。

table-vqa 数据集集合了从arXiv平台上的科学文章中聚合的图表和表格数据集 及 相对应 的LaTex源代码。

该数据集是专门训练处理文档类型对象(如图表、功能图、表格等)的多模态模型,而非摄影图像。

每张图像平均关联十个问题和答案对,这些问题和答案由Gemini 1.5 Pro、GPT-4o和Claude 3.5 sonnet等模型生成,非常适合用于图像与文本配对和多语言问答的多模态任务。

数据集地址:table-vqa

一、先看看数据集

数据集分为训练和测试部分,详细统计了每种语言和模型使用的图像数量、问答对和单词数量。

数据集包含字段如唯一标识符、图像、LaTeX源代码、用于生成问答对的模型、论文标识符、LaTeX新命令以及双语问答对。

图像问题答案对:

二、展望在应用中的潜力

一、数据可视化:

通过分析图表中的数据,系统能够识别关键的实验结果,并将这些结果转化为易于理解的图表和图形,从而帮助非专业读者快速把握研究的核心发现。

二、学术研究

辅助同学粒子的物理研究。通过输入相关的图表和数据,系统能够生成一系列问题和答案,帮助同学理解复杂的物理现象和实验数据。

三、辅助教育

辅助老师在上课时,增强学生的学习体验。系统会根据科学文章中的表格或图表生成了相关问题,使学生能够通过互动式学习更深入概念。

公开数据集网站,请打开:遇见数据集

www.selectdataset.com/