多模态
GaussianAnything
GaussianAnything 是一款基于多模态输入的 3D 内容生成框架,支持点云、文本和图像等多种输入方式,能够生成高精度且可编辑的 3D 模型。其核心技术包括点云结构化潜空间和级联扩散模型,具备几何与纹理解耦特性,适用于游戏开发、影视制作、VR/AR、工业设计等多个场景。该工具在生成质量和一致性方面表现优异,为 3D 内容创作提供了高效解决方案。
InspireMusic
InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。
MultiFoley
MultiFoley是一款基于多模态控制的音效生成系统,能够根据文本、音频或视频输入生成与视频同步的高质量Foley声音效果。它支持文本驱动和音频驱动的音效生成,同时具备音频扩展和质量控制功能,广泛应用于电影、游戏、动画及虚拟现实等领域,为用户提供灵活且高效的声音设计解决方案。