扩散模型
TransPixar
TransPixar是由多所高校及研究机构联合开发的开源文本到视频生成工具,基于扩散变换器(DiT)架构,支持生成包含透明度信息的RGBA视频。该技术通过alpha通道生成、LoRA微调和注意力机制优化,实现高质量、多样化的视频内容生成。适用于影视特效、广告制作、教育演示及虚拟现实等多个领域,为视觉内容创作提供高效解决方案。
LatentSync
LatentSync是由字节跳动与北京交通大学联合研发的端到端唇形同步框架,基于音频条件的潜在扩散模型,无需中间3D或2D表示,可生成高分辨率、动态逼真的唇同步视频。其核心技术包括Temporal Representation Alignment (TREPA)方法,提升视频时间一致性,并结合SyncNet监督机制确保唇部动作准确。适用于影视制作、教育、广告、远程会议及游戏开发等多个领域。
Motion Prompting
Motion Prompting 是一种利用点轨迹表示的视频生成技术,支持对象控制、相机控制及物理现象模拟等功能。它通过将用户输入转化为详细的运动轨迹,结合预训练的视频扩散模型与控制网络,在保持灵活性的同时提高生成质量。这项技术广泛应用于电影制作、游戏开发、虚拟现实等领域,为用户提供了强大的交互式视频生成工具。
---
Concept Lancet
Concept Lancet(CoLan)是一种基于潜在空间稀疏分解的图像编辑框架,能够实现零样本、即插即用的精确概念替换、添加与移除。它通过构建视觉概念字典,结合扩散模型生成高质量图像,保持视觉一致性。适用于创意设计、影视制作、游戏开发等多个领域,提供高效的图像编辑解决方案。
InspireMusic
InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。