VMB(Visuals Music Bridge)是由中国科学院信息工程研究所、中国科学院大学网络空间安全学院、上海人工智能实验室及上海交通大学等多家机构联合推出的一种多模态音乐生成框架。该框架能够利用文本、图像和视频等多种输入形式生成高质量音乐。VMB通过构建文本桥接和音乐桥接来应对数据稀缺、跨模态对齐弱以及可控性有限等问题。文本桥接负责将视觉输入转化为详尽的音乐描述,而音乐桥接则结合广泛与针对性的音乐检索策略,赋予用户更多控制权。VMB的显式条件音乐生成框架整合了这两个桥接,显著提升了音乐质量、模态对齐和定制化水平,超越了传统方法。
发表评论 取消回复