在人工智能领域,谷歌旗下的DeepMind公司推出了名为V2A(Video-to-Audio,视频到音频)的AI模型。该模型能够将视频内容与文本提示相结合,生成包含对话、音效和音乐的详细音频轨道。V2A技术不仅能够与DeepMind自身的视频生成模型Veo协同工作,还能与其他视频生成模型,如Sora、可灵或Gen 3等,进行集成,从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。此外,这项技术也适用于为传统影像资料,如档案影像和无声电影添加声音。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模型基于扩散模型,在同步视频和音频方面提供了最逼真和令人满意的结果。
发表评论 取消回复