音频生成

Jellypod

Jellypod 是一款基于 AI 的播客制作工具,支持从网页、PDF 等多种格式自动生成脚本并转为音频,涵盖 30 多种语言和口音。用户可自定义 AI 主持人,编辑脚本并一键发布到主流平台,具备高质量音频生成与内容管理功能,适用于企业、教育和个人品牌建设等场景。

Stable Audio

由Stability.ai团队倾力打造的Stable Audio 2.0音频生成模型

谷歌DeepMind推出V2A技术,可为无声视频添加逼真音效

DeepMind推出的V2A(Video-to-Audio)模型能够将视频内容与文本提示相结合,生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作,还能与其他视频生成模型,如Sora、可灵或Gen 3等,进行集成,从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AudioGen.co

一款由AI驱动的可以生成各种音频内容的平台,包括样品、乐器、音效和纹理。用户可以生成高质量的、适合制作专业的具有无限的变化音乐的声音

MoonCast

MoonCast 是一个零样本播客生成系统,能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练,支持中文和英文,生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本,并利用语音合成模块转换为最终音频,具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强,适用于内容创作、教

Resona V2A

专注于将视频内容自动转化为高质量音频。Resona V2A通过分析视频中的视觉元素,Resona V2A 能够生成与视频内容相匹配的声音设计、音效和环境音。

AudioX

AudioX 是一种基于多模态输入的音频生成模型,支持文本、视频、图像等多种输入方式,能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略,提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力,适用于视频配乐、动画音效、音乐创作等多个场景。

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

TANGOFLUX

TANGOFLUX是一款高效文本到音频生成模型,具备约5.15亿参数量,能够在3.7秒内生成30秒高质量音频。它采用CLAP-Ranked Preference Optimization框架优化音频输出,支持多种应用场景,包括多媒体内容创作、音频制作、播客、教育及虚拟助手开发。其开源特性推动了相关领域的技术进步。