STIV(Scalable Text and Image Conditioned Video Generation)是由苹果公司开发的先进视频生成大模型,具备8.7亿参数,专注于文本到视频(T2V)及文本图像到视频(TI2V)任务。该模型通过集成联合图像-文本分类器自由引导(JIT-CFG)技术,显著提升了视频生成的质量。STIV基于PixArt-Alpha架构,并融合了时空注意力机制、旋转位置编码(RoPE)以及流匹配训练目标,增强了视频生成的稳定性与效率。该模型广泛应用于视频预测、帧插值及长视频生成等多种下游任务。
发表评论 取消回复