多智能体交互式问题生成框架用于长文档理解
长上下文场景中具有复杂布局的文档理解(DU)仍然是视觉语言研究领域的重大挑战。尽管大型视觉语言模型(LVLMs)在短上下文DU任务中表现出色,但在长上下文环境中的性能会下降。一个关键限制是细粒度训练数据的稀缺性,特别是对于阿拉伯语等低资源语言。
现有最先进技术严重依赖人工标注,这种方式成本高昂且效率低下。本文提出了一种全自动的多智能体交互框架,能够高效生成长上下文问题。该方法能有效生成覆盖数百页多领域文档的高质量英文和阿拉伯语单页及多页问题,有助于开发具有增强长上下文理解能力的LVLMs。
实验结果表明,生成的英文和阿拉伯语问题(AraEngLongBench)对主流开源和闭源LVLMs都具有相当挑战性。代码和数据可通过指定链接获取,示例问答对和结构化系统提示可在附录中找到。