ViDoRAG是由阿里巴巴通义实验室联合中国科学技术大学和上海交通大学共同研发的视觉文档检索增强生成框架。该框架采用多智能体协作与动态迭代推理机制,旨在提升传统方法在处理复杂视觉文档时的检索与推理能力。通过引入高斯混合模型(GMM)实现多模态混合检索策略,动态调整检索结果数量,优化文本与视觉信息的融合效果。框架内包含Seeker、Inspector和Answer三种智能体,分别承担快速筛选、详细审查和最终答案生成的任务,通过多轮交互逐步细化输出结果,提高生成质量与一致性。实验表明,在ViDoSeek基准数据集上,ViDoRAG的性能优于现有方法,平均提升超过10%,展现出在视觉文档处理任务中的高效性与优越性。
发表评论 取消回复