音频

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型,利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务,如音乐创作、声音效果设计及语音合成,并可通过ComposableART技术实现对声音属性的精细调控。此外,Fugatto擅长生成动态变化的声音景观,广泛应用于音乐创作、声音设计及广告音频制作等领域。

MetaVoice Studio

MetaVoice Studio允许用户录制自己的声音或上传文件来创建自定义语音剪辑。它提供了一个免费的计划,有6个声音,30秒的剪辑长度,和一个非商业许可。付费计划包括8个声音、10分钟...

AudioStrip

AudioStrip 是一种使用AI和深度学习将人声从音频文件中的背景音乐分离出来的工具。

OptimizerAI

一个专门为视频自动生成音效的AI工具,可以为AI视频自动配音,能够通过文字提示创造出适用于各种场景的声音和音效。

Audio Decomposition

Audio Decomposition 是一款基于傅里叶变换和信封匹配技术的开源音频处理工具,能够分离音乐中的不同乐器声音并生成乐谱。它支持音乐转录、教育、制作及分析,通过深度音频处理为用户提供了强大的音乐解析能力。

Dubverse.ai

只需单击一个按钮,即可使您的内容支持多种语言,并覆盖更多人。

M2UGen

M2UGen是由腾讯PCG ARC实验室与新加坡国立大学共同研发的一款多模态音乐理解和生成框架,支持从文本、图像、视频等多种模态输入生成相应音乐。它具有强大的音乐理解能力、灵活的音乐编辑功能以及多样化的应用场景,适用于音乐制作、影视配乐、音乐教育等多个领域。凭借其创新的技术架构和卓越的表现力,M2UGen已成为当前最优秀的多模态音乐生成工具之一。

boomy

创建生成音乐,与世界分享.

Harmonai

我们是一个社区驱动的组织,发布开源生成音频工具,让每个人都能更轻松、更有趣地制作音乐

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。