LongDocURL

简介：LongDocURL是一个由中国科学院自动化研究所和阿里巴巴联合发布的多模态长文档理解基准数据集，包含2,325组问答对，覆盖33,000页文档，涉及20个子任务。该数据集专注于评估AI模型在长文档理解、数值推理、跨元素定位及多样化任务中的性能，支持文本、图像和表格等多种模式，具有高质量和多样性的特点。

AI小编 571 阅读 0 评论 26 点赞

项目地址

LongDocURL是由中国科学院自动化研究所与阿里巴巴淘宝天猫集团联合发布的一个多模态长文档理解基准数据集。该数据集专为评估AI模型在处理长文档、复杂元素及多样化任务中的理解、推理和定位能力而设计。数据集中包含2,325组问答对，覆盖超过33,000页文档，涉及20个子任务，旨在推动文档理解技术的进步。 LongDocURL的核心功能包括长文档理解、数值推理、跨元素定位及多样化任务处理。其构建过程采用半自动化流程，包括文档筛选、问答生成、自动化验证及人工验证等环节，以确保数据集的质量与多样性。此外，LongDocURL支持多种文档类型，平均每份文档长度达85.6页，适用于广泛的场景应用。 LongDocURL的技术原理基于多模态文档理解，利用多模态检索模型和语言模型实现页面检索与问答生成。同时，它通过任务分类细化为理解、推理和定位三大类，进一步划分为20个子任务，提供更精细的评估标准。项目提供了开源代码、技术论文及在线资源，便于研究者使用和扩展。

本文分类：AI项目与工具
本文标签：多模态长文档理解数值推理跨元素定位多样化任务半自动化构建科学文档理解法律文书分析智能制造数据集
浏览次数：571 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9639.html

上一篇 > DeepSeek Artifacts
下一篇 > TryOffAnyone

评论列表共有 0 条评论

暂无评论

LongDocURL

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复