视频分词

VidTok

VidTok(Video Tokenizer)是一款由微软开发的开源视频处理工具,通过高效的算法将视频内容转化为“视频词”,支持连续与离散分词化,具有灵活的压缩率和多样的隐空间,适用于视频生成、内容建模及数据压缩等场景。其混合模型架构结合卷积与采样模块,辅以有限标量量化技术,实现了高质量视频重建与高效数据处理。