SongGen

简介：SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型，能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出，可分别生成人声与伴奏，便于后期编辑。SongGen通过创新的音频标记化和训练策略，显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准，适用于音乐创作、视频配乐、教育辅助等多个领域。

AI小编 484 阅读 0 评论 78 点赞

项目地址

SongGen简介

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合研发的一款单阶段自回归Transformer模型，专注于从文本生成音乐。该模型以歌词和描述性文本（如乐器类型、音乐风格、情感表达等）作为输入，支持混合模式与双轨模式两种输出方式，分别用于直接生成人声与伴奏的混合音频，以及分别生成人声和伴奏，便于后续编辑。SongGen采用创新的音频标记化策略和训练方法，有效提升了生成歌曲的自然度和人声清晰度，简化了传统多阶段方法中复杂的训练和推理流程。其开源特性及高质量数据集为音乐生成领域的研究提供了新的参考标准。

SongGen的核心功能

细粒度控制：用户可通过歌词和描述性文本（包括乐器、风格、情感等）对生成的音乐进行精确控制。
声音克隆：支持基于三秒参考音频实现音色复制，使生成的歌曲具备特定歌手的声音特征。
双模式输出：提供“混合模式”（直接生成人声与伴奏的混合音频）和“双轨模式”（分别生成人声和伴奏，便于后期处理）。
高质量音频生成：通过优化的音频标记化和训练策略，生成具有高自然度和清晰人声的音频内容。

SongGen的技术原理

自回归生成框架：基于自回归Transformer解码器，将歌词和描述性文本编码为条件输入，利用交叉注意力机制引导音频标记的生成。
音频标记化：使用X-Codec将音频信号转换为离散的音频标记，结合代码本延迟模式处理多序列，提升生成效率。
混合模式与双轨模式：
- 混合模式：直接生成混合音频标记，并引入辅助人声音频标记预测目标，提高人声清晰度。
- 双轨模式：分别生成人声和伴奏标记，确保在帧级别上的同步，提升整体质量。
条件输入编码：
- 歌词编码：VoiceBPE分词器将歌词转换为音素级标记，通过小型Transformer编码器提取发音信息。
- 声音编码：MERT模型提取参考音频的音色特征，支持声音克隆。
- 文本描述编码：FLAN-T5模型将描述性文本编码为特征向量，用于控制音乐风格和情感。
训练策略：
- 多阶段训练：包含模态对齐、无参考声音支持和高质量微调，逐步提升模型性能。
- 课程学习：逐步调整代码本损失权重，优化模型对音频细节的学习能力。
- 数据预处理：构建自动化数据处理管道，从多个来源获取音频数据并分离人声与伴奏，生成高质量的训练数据集。

SongGen项目资源

GitHub仓库：https://github.com/LiuZH-19/SongGen
arXiv技术论文：https://arxiv.org/pdf/2502.13128

SongGen的应用场景

音乐创作：快速生成歌曲原型，探索不同音乐风格，辅助歌词与伴奏的匹配。
视频配乐：根据内容生成适配的背景音乐，增强视觉表现力。
教育辅助：用于音乐教学，帮助学生理解创作过程，提升语言和音乐感知能力。
个性化体验：支持定制化歌曲生成，实现声音克隆，打造专属音乐内容。
商业应用：为品牌或广告生成原创音乐，避免版权问题。

本文分类：AI项目与工具
本文标签：AI音乐生成自回归模型音频标记化声音克隆音乐创作工具混合模式双轨模式音乐AI 文本到音乐开源AI
浏览次数：484 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/8679.html

评论列表共有 0 条评论

暂无评论