DanceGRPO 是由字节跳动 Seed 与香港大学联合开发的首个统一视觉生成强化学习框架。该框架将强化学习技术引入视觉生成领域,覆盖了扩散模型(diffusion)和修正流(rectified flow)两大生成范式,并支持文本到图像、文本到视频、图像到视频等三种任务。同时,它兼容多种基础模型(如 SD、HunyuanVideo、FLUX 和 SkyReels-I2V)以及五类奖励模型,包括图像视频美学、图文对齐、视频动态质量及二元奖励等。DanceGRPO 能有效解决现有视觉生成任务中 RLHF 方案的局限性,实现跨范式、任务、模型和奖励的无缝适配,显著提升模型性能,降低显存占用,增强训练效率与稳定性,并具备良好的可迁移性,适用于修正流和视频生成模型。
发表评论 取消回复