ViDoRAG

简介：ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架，采用多智能体协作与动态迭代推理技术，提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合，支持精准检索与高质量生成，适用于教育、金融、医疗等多个领域，显著提升文档处理效率与准确性。

AI小编 784 阅读 0 评论 26 点赞

项目地址

ViDoRAG是由阿里巴巴通义实验室联合中国科学技术大学和上海交通大学共同研发的视觉文档检索增强生成框架。该框架采用多智能体协作与动态迭代推理机制，旨在提升传统方法在处理复杂视觉文档时的检索与推理能力。通过引入高斯混合模型（GMM）实现多模态混合检索策略，动态调整检索结果数量，优化文本与视觉信息的融合效果。框架内包含Seeker、Inspector和Answer三种智能体，分别承担快速筛选、详细审查和最终答案生成的任务，通过多轮交互逐步细化输出结果，提高生成质量与一致性。实验表明，在ViDoSeek基准数据集上，ViDoRAG的性能优于现有方法，平均提升超过10%，展现出在视觉文档处理任务中的高效性与优越性。

本文分类：AI项目与工具
本文标签：AI工具视觉文档处理多模态检索智能体协作动态推理自然语言处理知识管理机器学习文档理解生成模型
浏览次数：784 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8618.html

评论列表共有 0 条评论

暂无评论

ViDoRAG

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复