跨模态 - 智狐AI导航

CLaMP 3

CLaMP 3是由清华大学朱文武教授团队开发的多模态、多语言音乐信息检索框架，支持文本、图像、音频和乐谱等多种模态之间的跨模态检索。其基于对比学习技术，将不同模态数据与多语言文本对齐至统一语义空间，适用于文本到音乐、图像到音乐检索、零样本分类及音乐推荐等任务。支持27种语言，可扩展至100种，广泛应用于音乐创作、教育、分析及多媒体内容制作。

AI项目与工具 2025年06月12日 86 点赞 0 评论 621 浏览

蜜小豆

蜜小豆(蜜度Midu)-AI 绘画（以文生图）、AI图像修复、AI图像超分、AI图像增强。

AI服务商 2025年06月05日 21 点赞 0 评论 620 浏览

BioMedGPT

BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术，实现生物模态（如分子、蛋白质）与自然语言的统一融合，支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异，适用于药物设计、临床前研究及医学文本分析等多种场景，具备较高的文本推理能力和多模态处理能力。

AI项目与工具 2025年06月12日 95 点赞 0 评论 608 浏览

VideoVAE+

VideoVAE+是一种由香港科技大学研发的跨模态视频变分自编码器，具备时空分离压缩和文本指导功能。它通过分离空间与时间信息处理，有效减少运动伪影，同时利用文本嵌入增强细节重建能力。VideoVAE+在视频重建质量上超越现有模型，支持高保真与跨模态重建，适用于视频压缩、影视后期制作及在线教育等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 607 浏览

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型，能够整合文本、音频、视觉、温度和运动数据等多种模态的信息，并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐，支持跨模态检索和零样本学习。它在增强现实（AR）、虚拟现实（VR）、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

AI项目与工具 2025年06月12日 16 点赞 0 评论 603 浏览

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架，支持多模态输入（如图片、文字、视频等）生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化，具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景，有效降低音乐创作门槛，提升创作效率与个性化体验。

AI项目与工具 2025年06月12日 77 点赞 0 评论 603 浏览