SongGen简介
SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合研发的一款单阶段自回归Transformer模型,专注于从文本生成音乐。该模型以歌词和描述性文本(如乐器类型、音乐风格、情感表达等)作为输入,支持混合模式与双轨模式两种输出方式,分别用于直接生成人声与伴奏的混合音频,以及分别生成人声和伴奏,便于后续编辑。SongGen采用创新的音频标记化策略和训练方法,有效提升了生成歌曲的自然度和人声清晰度,简化了传统多阶段方法中复杂的训练和推理流程。其开源特性及高质量数据集为音乐生成领域的研究提供了新的参考标准。
SongGen的核心功能
- 细粒度控制:用户可通过歌词和描述性文本(包括乐器、风格、情感等)对生成的音乐进行精确控制。
- 声音克隆:支持基于三秒参考音频实现音色复制,使生成的歌曲具备特定歌手的声音特征。
- 双模式输出:提供“混合模式”(直接生成人声与伴奏的混合音频)和“双轨模式”(分别生成人声和伴奏,便于后期处理)。
- 高质量音频生成:通过优化的音频标记化和训练策略,生成具有高自然度和清晰人声的音频内容。
SongGen的技术原理
- 自回归生成框架:基于自回归Transformer解码器,将歌词和描述性文本编码为条件输入,利用交叉注意力机制引导音频标记的生成。
- 音频标记化:使用X-Codec将音频信号转换为离散的音频标记,结合代码本延迟模式处理多序列,提升生成效率。
- 混合模式与双轨模式:
- 混合模式:直接生成混合音频标记,并引入辅助人声音频标记预测目标,提高人声清晰度。
- 双轨模式:分别生成人声和伴奏标记,确保在帧级别上的同步,提升整体质量。
- 条件输入编码:
- 歌词编码:VoiceBPE分词器将歌词转换为音素级标记,通过小型Transformer编码器提取发音信息。
- 声音编码:MERT模型提取参考音频的音色特征,支持声音克隆。
- 文本描述编码:FLAN-T5模型将描述性文本编码为特征向量,用于控制音乐风格和情感。
- 训练策略:
- 多阶段训练:包含模态对齐、无参考声音支持和高质量微调,逐步提升模型性能。
- 课程学习:逐步调整代码本损失权重,优化模型对音频细节的学习能力。
- 数据预处理:构建自动化数据处理管道,从多个来源获取音频数据并分离人声与伴奏,生成高质量的训练数据集。
SongGen项目资源
- GitHub仓库:https://github.com/LiuZH-19/SongGen
- arXiv技术论文:https://arxiv.org/pdf/2502.13128
SongGen的应用场景
- 音乐创作:快速生成歌曲原型,探索不同音乐风格,辅助歌词与伴奏的匹配。
- 视频配乐:根据内容生成适配的背景音乐,增强视觉表现力。
- 教育辅助:用于音乐教学,帮助学生理解创作过程,提升语言和音乐感知能力。
- 个性化体验:支持定制化歌曲生成,实现声音克隆,打造专属音乐内容。
- 商业应用:为品牌或广告生成原创音乐,避免版权问题。
发表评论 取消回复