音频

VoiceDub

VoiceDub 是一款AI驱动的音频处理平台,支持人声替换、声音克隆、文本转语音及音频分离等功能,提供超过10,000种AI人声音色。用户可通过平台进行音乐创作、有声内容制作及个性化音频生成,适用于多种应用场景,如语言学习、娱乐互动等。

Jammable

Jammable是一款基于AI技术的音乐创作平台,用户可通过选择特定歌手声音或音乐风格,生成个性化的翻唱作品。平台提供快速生成、个性化定制、热门趋势展示及社区互动等功能,适用于音乐创作者、爱好者及教育领域。支持多种应用场景,如个人创作、社交媒体内容制作及创意合作,提升音乐创作效率与多样性。

covers.ai

covers.ai是一款基于AI技术的音乐创作平台,提供AI语音生成与AI歌曲生成功能。用户可通过简单操作,如演唱或哼唱,由AI自动完成音乐制作,生成个性化歌曲。平台支持多种音乐风格,并允许用户自定义声音效果,适合音乐爱好者、初学者及创作者使用。其操作便捷、创意性强,有助于激发音乐灵感并提升创作效率。

InspireMusic

InspireMusic是由阿里巴巴通义实验室开发的AI音乐生成工具,支持通过文字描述或音频提示生成多种风格的音乐作品。其核心技术包括音频 tokenizer、自回归 Transformer 模型、扩散模型(CFM)和 Vocoder,实现文本到音乐的转换、音乐续写及高质量音频输出。该工具支持长音频生成、多种采样率,并提供快速与高音质两种推理模式,适用于音乐创作、音频处理及个性化音乐生成等场景。

TurboTTS

TurboTTS是一款支持多语言的在线文本转语音工具,提供300多种真实语音选择,生成自然流畅的语音效果。适用于短视频、教育、广告及播客等多种场景,操作简单,支持多种音频格式下载,并可合法用于商业用途。凭借AI技术,用户能高效完成语音内容制作,满足多样化需求。

PDF to Podcast

PDF to Podcast 是一款由 NVIDIA 开发的 AI 工具,能够将 PDF 文档自动转换为高质量的音频内容,如播客。该工具结合了大型语言模型、文本到语音技术以及 NVIDIA NIM 微服务架构,支持从 PDF 提取信息并生成结构化文本,再通过语音合成输出自然流畅的音频。用户可自定义生成内容的重点,并支持多种部署方式,适用于企业培训、技术简报、客户服务、医疗教育等多个领域。

星声AI

星声AI是一款智能化播客生成工具,支持文字、网页链接或文档输入,自动生成结构完整的播客脚本,并通过高质量语音合成技术转化为自然流畅的音频内容。平台支持中、英、日、韩四国语言,提供多种音色与风格选择,具备音频编辑、内容拆解、多平台发布等功能,适用于知识分享、企业培训、内容创作等多种场景。

TIGER

TIGER是由清华大学研发的轻量级语音分离模型,采用时频交叉建模策略与多尺度注意力机制,有效提升语音分离性能,同时显著降低计算和参数开销。模型通过频带切分优化资源利用,适应复杂声学环境,广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

detangle

detangle 是一款基于人工智能的法律辅助工具,能够快速生成法律文件摘要,将复杂术语转化为通俗语言,帮助用户精准识别关键条款并提供音频摘要功能。适用于个人、企业、法律从业者及学习者,提升法律文件处理效率与理解能力,同时保障数据安全。

SongGen

SongGen是一款由多家高校和研究机构联合开发的单阶段自回归Transformer模型,能够根据文本生成高质量音乐。它支持混合模式和双轨模式输出,可分别生成人声与伴奏,便于后期编辑。SongGen通过创新的音频标记化和训练策略,显著提升了人声清晰度和音乐自然度。其开源特性及高质量数据集为音乐生成研究提供了新基准,适用于音乐创作、视频配乐、教育辅助等多个领域。