F-Lite是由Freepik团队与FAL开源项目联合开发的一款10B参数的文本到图像生成模型。该模型基于Freepik内部的80M版权数据集进行训练,支持商业用途。F-Lite采用T5-XXL作为文本编码器,从其第17层提取特征,并通过交叉注意力机制将文本信息注入到扩散模型中,以提升生成图像的准确性。在训练过程中,模型经历了256和512分辨率的预训练阶段,以及1024分辨率的后训练阶段,以提高图像质量。此外,还推出了专门优化纹理和细节提示的F-Lite Texture版本。 F-Lite采用了多分辨率训练策略,并结合强化学习技术(如GRPO)提升生成结果的多样性和质量。同时,通过引入可学习的register tokens、残差连接和μ-Parameterization等技术手段,进一步增强了模型的稳定性与性能。用户可通过GitHub、HuggingFace及在线Demo等多种方式访问和使用该模型。
发表评论 取消回复