图像生成

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。

KHOJ

KHOJ是一款开源的AI助手,支持多源知识整合与语义搜索,兼容多种文档格式和AI模型。提供图像生成、语音交互、跨平台访问等功能,支持本地与云端部署,适用于个人知识管理、学习研究、团队协作等场景,具有高度灵活性和可扩展性。

Seaweed APT

Seaweed APT是字节跳动研发的对抗性后训练模型,支持图像和视频的一站式生成。其通过在真实数据上进行对抗性训练,实现单步高质量输出,包括1024px图像和1280×720、24fps视频。该模型采用先进的生成器和判别器设计,结合近似R1正则化技术,提升训练稳定性和生成质量。适用于视频广告、影视创作、社交媒体等内容生产场景。

AnyStory

AnyStory是阿里巴巴通义实验室开发的文本到图像生成工具,支持单个或多个主体的高保真图像生成。其核心在于“编码-路由”架构,结合ReferenceNet和CLIP视觉编码器实现主体特征的精准建模与定位。通过解耦路由机制,有效避免多主体混淆,确保图像与文本描述高度一致。适用于创意设计、角色生成、广告制作等多个场景,提供高质量、个性化的图像生成能力。

SmartEraser

SmartEraser是中科大与微软亚洲研究院联合开发的图像编辑工具,采用“掩码区域引导”技术实现精准对象移除,同时保留周围上下文。基于Syn4Removal数据集训练,支持多种掩码输入,适用于复杂场景,广泛应用于照片编辑、设计、文物修复及科研等领域。

LineArt

LineArt是一种无需训练的高质量设计绘图外观迁移框架,能将复杂外观特征准确转移到设计图纸上,同时保留结构细节。其技术基于模拟人类视觉认知过程,结合艺术经验指导扩散模型,支持工业设计、室内设计、服装设计等多个领域应用。具备高效、高保真和易用性等特点,适用于快速生成逼真效果和优化设计流程。

Piclumen

Piclumen 是一款基于AI的图像生成工具,支持文本转图像、图像风格化、背景移除及图像修复等功能,可生成多种艺术风格的高质量图像。其高分辨率输出和便捷操作使其广泛应用于社交媒体、广告设计、艺术创作、游戏开发及教育领域,适合各类用户快速实现视觉创意。

SynthLight

SynthLight是由耶鲁大学与Adobe Research联合开发的基于扩散模型的人像重照明工具,通过物理渲染引擎生成合成数据并结合多任务训练策略,实现高质量的光照效果生成。它能够根据环境光照图重新渲染人像,生成自然的高光、阴影和漫反射效果,并适用于摄影后期、虚拟场景、游戏开发及广告设计等多个领域,具备良好的泛化能力和实用性。

3DIS

3DIS-FLUX是一种基于深度学习的多实例图像生成框架,采用两阶段流程:先生成场景深度图,再进行细节渲染。通过注意力机制实现文本与图像的精准对齐,无需额外训练即可保持高生成质量。适用于电商设计、创意艺术、虚拟场景构建及广告内容生成等领域,具备良好的兼容性和性能优势。

TokenVerse

TokenVerse 是一种基于扩散模型的多概念图像生成工具,支持从单图或多图中解耦并组合视觉元素,如物体、材质、姿势等。通过优化调制空间,实现对复杂概念的局部控制,无需微调模型即可生成个性化图像,适用于创意设计、艺术创作和内容生成等多种场景。