多模态 - 智狐AI导航

Vidu 1.5

Vidu 1.5是一款基于多模态视频大模型的AI生成工具，支持参考生视频、图生视频和文生视频生成，通过精准的语义理解能力，在30秒内完成高质量视频创作，适用于影视、动漫、广告等多行业场景，助力创作者高效产出多样化内容。

AI项目与工具 2025年06月12日 80 点赞 0 评论 570 浏览

MMAudio

MMAudio是一款基于多模态联合训练的音频合成工具，通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块，确保生成的音频与视频帧或文本描述时间轴完全对应，适用于影视制作、游戏开发、虚拟现实等多种场景，极大提升了跨模态数据处理的能力和应用效率。

AI项目与工具 2025年06月12日 68 点赞 0 评论 568 浏览

Morphik

Morphik是一款开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索，采用ColPali技术理解文档中的视觉内容，具备快速元数据提取功能，可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成，适用于技术文档处理、企业知识管理和智能应用开发等场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 566 浏览

LibreChat

一个开源多模态AI对话平台，它支持与多种AI模型服务的集成，包括OpenAI、Azure、Anthropic和Google等。

AI写作对话 2025年06月05日 92 点赞 0 评论 566 浏览

WebLI

WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集，包含1000亿个图像与文本配对数据，是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建，保留了丰富的语言和文化多样性，支持多模态任务如图像分类、图像描述生成和视觉问答，广泛应用于人工智能研究、工程开发及教育领域。

AI项目与工具 2025年06月12日 51 点赞 0 评论 566 浏览

Molmo 72B

Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型，集成了图像和文本处理能力，适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构，Molmo 72B在学术基准测试中表现优异，为开源AI技术的发展做出了重要贡献。

AI项目与工具 2025年06月12日 69 点赞 0 评论 565 浏览

Stackie.AI

Stackie.AI 是一款基于AI的智能记录与管理工具，支持多模态输入（文本、语音、图像），提供自动整理、任务生成、个性化模板及角色互动等功能。适用于健康管理、学习辅助、日常计划与习惯养成等场景，提升信息处理效率与用户体验。

AI项目与工具 2025年06月12日 75 点赞 0 评论 565 浏览

VideoTuna

VideoTuna是一款基于AI的开源视频生成工具，支持文本到视频、图像到视频以及文本到图像的转换。它提供预训练、微调和后训练对齐等功能，兼容U-Net和DiT架构，并计划引入3D视频生成能力。VideoTuna旨在简化视频内容创作流程，提升生成质量与可控性，适用于内容创作、电影制作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 30 点赞 0 评论 563 浏览

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 563 浏览

StarVector

StarVector 是一个开源多模态视觉语言模型，支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构，结合图像编码与语言模型，生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练，适用于图标设计、艺术创作、数据可视化等多种场景，具备良好的性能和扩展性。

AI项目与工具 2025年06月12日 68 点赞 0 评论 562 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期