Freestyler是由西北工业大学计算机科学学院的音频、语音与语言处理小组(ASLP@NPU)、微软以及香港中文大学深圳研究院大数据研究所联合研发的说唱音乐生成模型。该模型能够根据歌词和伴奏自动生成说唱音乐。Freestyler的工作流程首先通过语言模型生成语义标记,接着利用条件流匹配模型将这些标记转化为频谱图,最后借助神经声码器生成高质量的音频输出。此外,该项目推出了RapBank数据集,用于支持模型的训练与开发,并实现了零样本音色控制功能,使用户能够生成具有特定音色的说唱声乐。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部