SeedFoley 是字节跳动豆包大模型语音团队研发的端到端视频音效生成模型,旨在为视频创作提供智能化的音效生成服务。该模型通过融合时空视频特征与扩散生成技术,实现音效与视频内容的高度同步。其采用快慢特征组合的视频编码器,有效提取视频的时空信息,并结合基于原始波形的音频表征模型,保留高频细节,提升音效的细腻度。同时,扩散模型通过优化概率路径映射关系,减少推理步骤,降低计算成本。SeedFoley 能够精准识别视频中的动作和环境音效,适用于多种长度的视频内容,在音效准确性、同步性和匹配度方面表现突出。
发表评论 取消回复