多模态 - 智狐AI导航

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型，能够整合文本、音频、视觉、温度和运动数据等多种模态的信息，并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐，支持跨模态检索和零样本学习。它在增强现实（AR）、虚拟现实（VR）、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

AI项目与工具 2025年06月12日 16 点赞 0 评论 596 浏览

灵犀 X2

灵犀 X2 是智元机器人推出的双足人形机器人，具备 28 个自由度和高灵活性，可完成跳舞、奔跑、骑车等复杂动作。搭载 Diffusion 动作生成引擎和多模态交互系统，支持情感识别与毫秒级响应。适用于家庭服务、教育、医疗护理、工业协作及娱乐场景，具备强大的环境感知与任务执行能力。

AI项目与工具 2025年06月12日 43 点赞 0 评论 596 浏览

ModelEngine

ModelEngine 是华为开源的全流程 AI 开发工具链，涵盖数据处理、模型训练与应用开发三大核心模块。支持多模态数据清洗、知识向量化及模型推理，提供低代码编排和 RAG 框架，适用于医疗、金融、制造等领域的 AI 应用开发与行业化落地。

AI项目与工具 2025年06月12日 75 点赞 0 评论 596 浏览

硅基流动

SiliconCloud 是硅基流动推出的一站式大模型云服务平台。

创作工具 2026年07月27日 0 点赞 0 评论 595 浏览

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架，支持多模态输入（如图片、文字、视频等）生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化，具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景，有效降低音乐创作门槛，提升创作效率与个性化体验。

AI项目与工具 2025年06月12日 77 点赞 0 评论 595 浏览

VARGPT

VARGPT是一款多模态大语言模型，整合了视觉理解和生成任务于统一的自回归框架中。它通过next-token和next-scale预测机制，支持文本与图像的混合输入和输出，具备高效的视觉生成能力。模型采用三阶段训练策略，提升了在视觉问答、推理及图像生成任务中的表现。适用于多模态内容创作、指令到图像合成等场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 594 浏览

Samsung Gauss2

Samsung Gauss2是一款由三星推出的第二代多模态生成式AI模型，具备处理文本、代码和图像等多类型数据的能力。它通过引入知识图谱技术和专家混合技术，实现了个性化服务和高效的任务执行。此外，该模型还支持多种语言及编程语言，并能在无网络环境下独立运行，广泛适用于智能手机、平板电脑、笔记本电脑以及企业级应用场景。

AI项目与工具 2025年06月12日 17 点赞 0 评论 594 浏览

RapiLearn AI

RapiLearn AI 是一款基于人工智能的教育工具，支持多种格式学习资料的整合与生成，包括视频、音频、笔记、测试和思维导图等。具备交互式学习功能，提供智能助教服务，可拓展知识点并推荐相关内容。支持多模态学习体验，适用于学生、教师及各类学习者，提升学习效率与知识掌握度。

AI项目与工具 2025年06月12日 99 点赞 0 评论 592 浏览

Aya Vision

Aya Vision 是 Cohere 推出的多模态、多语言视觉模型，支持 23 种语言，具备图像描述生成、视觉问答、文本翻译和多语言摘要生成等能力。采用模块化架构与合成标注技术，确保在资源有限条件下仍具高效表现。适用于教育、内容创作、辅助工具开发及多语言交流等多个场景，具有广泛的实用价值。

AI项目与工具 2025年06月12日 70 点赞 0 评论 591 浏览

LaDeCo

LaDeCo是一款基于多模态模型的自动化图形设计工具，通过分层规划与逐步生成的方式，实现从多模态输入到高质量设计输出的转换。其核心功能涵盖层规划、层级设计生成、分辨率调整、元素填充及多样化设计输出，广泛适用于设计师、研究人员、评估人员及开发者等群体，助力提升设计效率与质量。

AI项目与工具 2025年06月12日 53 点赞 0 评论 589 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期