Loong是一款由香港大学与字节跳动联合开发的长视频生成模型,专注于生成高质量、连贯且动态丰富的长视频内容。该模型采用自回归大型语言模型(LLM)技术,将文本与视频信息整合为统一序列,通过渐进式短到长训练及损失重新加权策略,有效应对长视频生成中的技术难题。Loong设计支持超长视频生成,并引入视频标记重新编码与优化的采样策略,显著降低推理过程中的错误积累。此外,Loong的研究成果已公开发布,可供学术界和开发者进一步探索。
Loong是一款由香港大学与字节跳动联合开发的长视频生成模型,专注于生成高质量、连贯且动态丰富的长视频内容。该模型采用自回归大型语言模型(LLM)技术,将文本与视频信息整合为统一序列,通过渐进式短到长训练及损失重新加权策略,有效应对长视频生成中的技术难题。Loong设计支持超长视频生成,并引入视频标记重新编码与优化的采样策略,显著降低推理过程中的错误积累。此外,Loong的研究成果已公开发布,可供学术界和开发者进一步探索。
发表评论 取消回复