CogSound是由智谱AI开发的音效生成模型,能够为无声视频添加符合语义和情感的音效。该模型依托于GLM-4V强大的视频理解能力,能够准确识别视频内容并生成与之匹配的复杂音效,例如爆炸声、水流声、乐器声、动物叫声及交通工具声等。CogSound的推出体现了智谱AI在视频多模态生成技术上的进步,旨在提升视频的沉浸感与真实感。 CogSound具备多项核心功能,包括生成与画面匹配的音效、支持4K超高清视频音效同步生成、适应不同比例视频的音效适配、多通道视频音效生成以及显著提升视频生成体验的音效增强效果。此外,其音效功能计划于11月底进入公测阶段,用户可通过智谱清影体验这一服务。 在技术层面,CogSound采用潜空间扩散模型(Latent Diffusion Model)和优化后的U-Net架构,以提高音频生成效率与质量。同时,它通过分块时序对齐交叉注意力机制优化音视频特征匹配,并利用旋转位置编码技术增强时序建模的精确性和连贯性。 CogSound适用于视频内容创作、广告制作及影视后期等领域,为用户提供多样化的音效解决方案。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部