LongDocURL是由中国科学院自动化研究所与阿里巴巴淘宝天猫集团联合发布的一个多模态长文档理解基准数据集。该数据集专为评估AI模型在处理长文档、复杂元素及多样化任务中的理解、推理和定位能力而设计。数据集中包含2,325组问答对,覆盖超过33,000页文档,涉及20个子任务,旨在推动文档理解技术的进步。 LongDocURL的核心功能包括长文档理解、数值推理、跨元素定位及多样化任务处理。其构建过程采用半自动化流程,包括文档筛选、问答生成、自动化验证及人工验证等环节,以确保数据集的质量与多样性。此外,LongDocURL支持多种文档类型,平均每份文档长度达85.6页,适用于广泛的场景应用。 LongDocURL的技术原理基于多模态文档理解,利用多模态检索模型和语言模型实现页面检索与问答生成。同时,它通过任务分类细化为理解、推理和定位三大类,进一步划分为20个子任务,提供更精细的评估标准。项目提供了开源代码、技术论文及在线资源,便于研究者使用和扩展。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部