文本驱动
InfiniteYou
InfiniteYou 是由字节跳动推出的基于扩散变换器的身份保持图像生成框架,通过 InfuseNet 注入身份特征,确保生成图像与输入图像的高度相似。结合多阶段训练策略,提升文本与图像对齐、图像质量和美学效果。支持插件化设计,兼容多种工具,适用于社交媒体、影视制作、广告营销等多个领域。
VideoGrain
VideoGrain是由悉尼科技大学与浙江大学联合研发的零样本多粒度视频编辑框架,支持类别级、实例级和部件级的精细化视频修改。它通过调节时空交叉注意力和自注意力机制,提升文本提示对目标区域的控制能力,确保时间一致性与特征分离,显著优于现有T2I和T2V方法。该工具无需额外参数调整,具备高效计算性能,适用于影视制作、广告营销、内容创作等多个领域。
DiffSensei
DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架,它结合了基于扩散的图像生成技术和多模态大型语言模型(MLLM)。该工具能够根据用户提供的文本提示和角色图像,生成具有高精度和视觉吸引力的黑白漫画面板,支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等,广泛应用于漫画创作、个性化内容生成、教育和培训等领
ClotheDreamer
ClotheDreamer是一项基于文本描述生成高保真3D服装的技术,采用Disentangled Clothe Gaussian Splatting (DCGS) 和双向Score Distillation Sampling (SDS) 等先进技术,支持自定义模板输入和多体型适配,适用于虚拟试穿、游戏开发、电影制作及虚拟现实等场景。