STIV

简介：STIV是一款由苹果公司开发的视频生成大模型，具有8.7亿参数，擅长文本到视频（T2V）及文本图像到视频（TI2V）任务。它通过联合图像-文本分类器自由引导（JIT-CFG）技术提升生成质量，并结合时空注意力机制、旋转位置编码（RoPE）及流匹配训练目标优化性能。STIV支持多种应用场景，包括视频预测、帧插值、长视频生成等，适用于娱乐、教育、广告及自动驾驶等多个领域。

AI小编 500 阅读 0 评论 57 点赞

官网地址

STIV（Scalable Text and Image Conditioned Video Generation）是由苹果公司开发的先进视频生成大模型，具备8.7亿参数，专注于文本到视频（T2V）及文本图像到视频（TI2V）任务。该模型通过集成联合图像-文本分类器自由引导（JIT-CFG）技术，显著提升了视频生成的质量。STIV基于PixArt-Alpha架构，并融合了时空注意力机制、旋转位置编码（RoPE）以及流匹配训练目标，增强了视频生成的稳定性与效率。该模型广泛应用于视频预测、帧插值及长视频生成等多种下游任务。

本文分类：AI项目与工具
本文标签：视频生成文本到视频 AI模型多模态条件视频预测帧插值自动驾驶流匹配训练时空注意力机制罗马位置编码
浏览次数：500 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9920.html

评论列表共有 0 条评论

暂无评论

STIV

文本到视频生成：CogVideoX (2024) 和 CogVideo (ICLR 2023)

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复