2024年7月25日, Credit Mutuel Arkea 更新了table-vqa 数据集。
table-vqa 数据集集合了从arXiv平台上的科学文章中聚合的图表和表格数据集 及 相对应 的LaTex源代码。
该数据集是专门训练处理文档类型对象(如图表、功能图、表格等)的多模态模型,而非摄影图像。
每张图像平均关联十个问题和答案对,这些问题和答案由Gemini 1.5 Pro、GPT-4o和Claude 3.5 sonnet等模型生成,非常适合用于图像与文本配对和多语言问答的多模态任务。
数据集地址:table-vqa
一、先看看数据集
数据集分为训练和测试部分,详细统计了每种语言和模型使用的图像数量、问答对和单词数量。
数据集包含字段如唯一标识符、图像、LaTeX源代码、用于生成问答对的模型、论文标识符、LaTeX新命令以及双语问答对。
图像问题答案对:
二、展望在应用中的潜力
一、数据可视化:
通过分析图表中的数据,系统能够识别关键的实验结果,并将这些结果转化为易于理解的图表和图形,从而帮助非专业读者快速把握研究的核心发现。
二、学术研究
辅助同学粒子的物理研究。通过输入相关的图表和数据,系统能够生成一系列问题和答案,帮助同学理解复杂的物理现象和实验数据。
三、辅助教育
辅助老师在上课时,增强学生的学习体验。系统会根据科学文章中的表格或图表生成了相关问题,使学生能够通过互动式学习更深入概念。