多模态 - 智狐AI导航

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 662 浏览

Ichigo

Ichigo是一款开源的多模态AI语音助手，采用混合模态模型，支持实时处理语音和文本交织序列。它通过统一的Transformer架构实现跨模态联合推理，提供低延迟的实时性能，并支持多语言、多轮对话及模糊输入处理。Ichigo适用于智能家居、个人助理、客户服务、教育和健康咨询等多种应用场景，展现了高效、灵活的技术优势。

AI项目与工具 2025年06月12日 96 点赞 0 评论 548 浏览

CogSound

CogSound是一款基于AI的音效生成工具，能够为无声视频添加与内容匹配的高质量音效，涵盖多种复杂场景。该工具通过先进的音视频特征匹配技术和优化的生成算法，提升了视频的沉浸感和真实感，广泛应用于视频创作、广告制作及影视后期等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 555 浏览

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集，包含4300万条样本，涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量，并采用合成数据生成技术扩展数据集规模。基于此数据集，智源研究院训练出了20亿参数的Aquila-VL-2B模型，在多项基准测试中表现出色，推动了多模态AI领域的研究与发展。

AI项目与工具 2025年06月12日 87 点赞 0 评论 610 浏览

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集，包含500个第一人称视角视频，涵盖77种日常活动，支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务，测试模型对长时间视频内容的信息识别与综合能力，推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制，使其成为学术研究的重要工具。

AI项目与工具 2025年06月12日 77 点赞 0 评论 657 浏览

TableGPT2

TableGPT2是一种由浙江大学开发的多模态人工智能模型，专注于结构化数据的处理与分析。它具备强大的表格数据理解能力，支持SQL查询执行、数据分析以及数据增删改查等功能。通过创新的表格编码器和双维注意力机制，TableGPT2在处理不规则表格和模糊查询方面表现优异。其应用场景广泛，涵盖商业智能、财务分析、市场研究及供应链管理等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 719 浏览

Vidu 1.5

Vidu 1.5是一款基于多模态视频大模型的AI生成工具，支持参考生视频、图生视频和文生视频生成，通过精准的语义理解能力，在30秒内完成高质量视频创作，适用于影视、动漫、广告等多行业场景，助力创作者高效产出多样化内容。

AI项目与工具 2025年06月12日 80 点赞 0 评论 569 浏览

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架，旨在提升模型对未知视觉内容的理解能力。它通过网络检索，使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色，支持图像描述生成、网络知识搜索、协作生成等功能，可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 789 浏览

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集，支持文本、图像和点云等多种数据形式，旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务，该工具不仅能够评估模型性能，还能促进具身AI和3D场景理解领域的研究进展。同时，它为开发更强大的情境推理模型提供了丰富的预训练资源。

AI项目与工具 2025年06月12日 80 点赞 0 评论 576 浏览

RMBG

RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型，通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练，支持电子商务、广告、游戏开发等领域，具备高精度背景移除、多模态数据处理及云服务器无关架构等特点，为用户提供了高效、灵活的解决方案。

AI项目与工具 2025年06月12日 91 点赞 0 评论 595 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期