MaskSearch MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架,通过检索增强掩码预测(RAMP)任务提升大型语言模型(LLM)的智能体搜索能力。该工具利用外部知识库和搜索工具预测被掩盖的关键信息,增强模型对复杂问题的理解和回答能力。结合SFT和强化学习(RL)训练方法,采用多智能体协同生成思维链数据,并引入课程学习策略优化模型性能。适用于智能客服、教育、企业搜索及机器学习模型调试等多个场景。 摄影壁纸 2025年06月11日 46 点赞 0 评论 190 浏览
VARGPT VARGPT是一款多模态大语言模型,整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制,支持文本与图像的混合输入和输出,具备高效的视觉生成能力。模型采用三阶段训练策略,提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。 AI项目与工具 2025年06月12日 17 点赞 0 评论 186 浏览
LitLit(立理) LitLit(立理)是一款基于AI技术的学术工具,主要功能包括文献检索、文献阅读、综述生成、学术问答等。它能够通过自研算法精准筛选文献,快速生成文献综述,并支持文献内容的深度解析和个性化学习资源推荐。此外,LitLit(立理)还提供了实时学术问答服务,帮助用户高效完成学术研究和论文写作。 AI项目与工具 2025年06月12日 87 点赞 0 评论 185 浏览
VideoRAG VideoRAG是一种基于检索增强生成(RAG)技术的工具,旨在提升长视频的理解能力。它通过提取视频中的多模态信息(如OCR、ASR和对象检测),并将其与视频帧和用户查询结合,增强大型视频语言模型的处理效果。该技术轻量高效,易于集成,适用于视频问答、内容分析、教育、媒体创作及企业知识管理等多个领域。 AI项目与工具 2025年06月12日 75 点赞 0 评论 184 浏览
Free Video Free Video-LLM是一种无需训练的高效视频语言模型,基于提示引导的视觉感知技术,可直接对视频内容进行理解和推理,适用于视频问答、内容分析等多种场景。通过时空采样优化和减少视觉标记,它在保持高性能的同时显著降低了计算复杂度。 AI项目与工具 2025年06月12日 50 点赞 0 评论 183 浏览
LAYMAN LAW LAYMAN LAW是一款基于AI的法律辅助工具,能够将复杂法律术语和文件内容转化为通俗易懂的语言。支持PDF文件解析、智能问答、文本摘要生成及浏览器扩展功能,适用于法律专业人士、企业人员及普通用户。帮助用户快速理解法律内容,提升法律素养,降低合规风险。 AI项目与工具 2025年06月12日 57 点赞 0 评论 183 浏览
Ming Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型,基于MoE架构,支持文本、图像、音频和视频等多种模态的输入输出,具备强大的理解和生成能力。模型在多个任务中表现优异,如图像识别、视频理解、语音问答等,适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性,为用户提供一体化智能体验。 AI项目与工具 2025年06月11日 79 点赞 0 评论 183 浏览
PP PP-DocBee是百度飞桨推出的多模态文档理解模型,基于ViT+MLP+LLM架构,支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出,适用于文档问答、信息提取等场景,支持灵活部署,为文档处理提供智能化解决方案。 AI项目与工具 2025年06月12日 56 点赞 0 评论 181 浏览
馆长 馆长是一款基于RAG技术的浏览器插件式AI问答工具,支持本地知识库管理,可导入PDF、Word、网页等内容,通过语义搜索提供精准答案。所有数据存储于本地,保障隐私安全,支持离线使用。具备中英文搜索、无限文档导入、多平台集成等特性,适用于个人知识管理、企业内部知识库、在线学习及图书馆服务等场景。 AI项目与工具 2025年06月12日 88 点赞 0 评论 181 浏览