多模态模型

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具，支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型（CFM）和 Vocoder，实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率，并提供快速与高音质两种推理模式，适用于音乐创作、音频处理及个性化音乐生成等场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 807 浏览

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 480 浏览

EliGen

EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架，采用区域注意力机制实现对图像中实体的精确控制，支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练，具备强大泛化能力，适用于虚拟场景、角色设计、数据合成及产品展示等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 802 浏览

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架，基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动，适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构，提升生成效果与稳定性，广泛应用于影视、游戏、教育、广告等领域。

AI项目与工具 2025年06月12日 43 点赞 0 评论 558 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 553 浏览

跃问创意板

跃问创意板是一款基于AI技术的用户友好型应用生成工具，支持通过自然语言指令快速创建小游戏、互动网页和可视化内容。具备零门槛操作、多轮交互、自动代码修复、版本管理和一键分享等功能，适用于游戏开发、教育、生活娱乐等多个场景，为用户提供高效便捷的创意实现方式。

AI项目与工具 2025年06月12日 18 点赞 0 评论 926 浏览

OmniThink

OmniThink是由浙江大学与阿里巴巴通义实验室联合开发的机器写作框架，通过模拟人类学习和反思机制，提升文章的知识密度与深度。支持多种语言模型，具备信息树与概念池结构化管理功能，适用于学术写作、新闻报道、教育内容创作等多个领域，有效提高生成内容的质量与多样性。

AI项目与工具 2025年06月12日 10 点赞 0 评论 589 浏览

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器，通过结合局部与全局token，提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息，增强细节感知能力。在多个基准测试中表现优异，尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略，提高模型泛化能力，适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

AI项目与工具 2025年06月12日 38 点赞 0 评论 800 浏览

Luma Ray2

Luma Ray2 是 Luma AI 推出的视频生成模型，基于多模态架构，支持文本和图像输入，生成高质量、连贯的视频内容。相较前代，视频时长从 5 秒提升至 1 分钟，支持电影级运镜和逼真特效，适用于影视制作、广告、游戏动画及教育等多个领域。

AI项目与工具 2025年06月12日 28 点赞 0 评论 590 浏览

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型，具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互，适用于智能客服、教育、医疗等多个领域，提升人机对话的自然度与效率。

AI项目与工具 2025年06月12日 59 点赞 0 评论 816 浏览

多模态模型

首页

多模态模型

列表

默认

浏览次数

发布日期