音频

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型,支持情感和语调的精确控制,通过内联音频标签实现多样化的表达。它支持多说话人对话,能模拟真实交谈中的语气变化,覆盖超70种语言,适用于媒体影视配音、有声读物制作、游戏开发和教育等领域,提供生动、真实的声音体验。

Reecho

通过Reecho在数秒内克隆任意声音,并创建与真人近乎无异的、极具表现力的文本配音。

OmniHuman

OmniHuman是字节跳动推出的多模态人类视频生成框架,基于单张图像和运动信号生成高逼真视频。支持音频、姿势及组合驱动,适用于多种图像比例和风格。采用混合训练策略和扩散变换器架构,提升生成效果与稳定性,广泛应用于影视、游戏、教育、广告等领域。

讯飞配音

提供文字转语音、语音合成、国内专业的一站式配音服务平台

TurboScribe

TurboScribe是一款利用AI技术实现高效音频和视频转录的服务平台,支持98种以上语言的文本转换,具备强大的文件处理能力和多格式兼容性。通过加密技术保障数据安全,提供多样化的成绩单导出选项,并支持说话人识别功能,广泛应用于播客制作、会议记录、学术研究等领域。

HitPaw Univd

HitPaw Univd 是一款基于人工智能的多功能视频转换工具,支持超过1000种格式转换,具备无损音视频处理、AI画质修复、视频下载和内置编辑功能。适用于音乐转换、教学视频制作、视频压缩与格式适配等多种场景,兼具高效性与专业性。

vidyo.ai

Vidyo.ai是一款基于人工智能的视频编辑工具,可将长视频自动剪辑为适合社交媒体的短视频片段。其主要功能涵盖智能剪辑、尺寸适配、字幕生成、播放速度调节及音频优化等。该工具支持多语言操作,适合内容创作者和品牌方高效制作高质量视频内容。

Loopy

Loopy是一款由字节跳动开发的音频驱动的AI视频生成模型。该模型能够将静态照片转化为具有面部表情和头部动作的动态视频,与给定的音频文件同步。Loopy利用先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,从而生成自然流畅的动作。其主要功能包括音频驱动、面部动作生成、无需额外条件以及长期运动信息捕捉。Loopy适用于娱乐、教育、影视制作等多种场景。

AbletonMCP

AbletonMCP 是一个开源工具,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现音乐制作过程中的 AI 辅助。支持双向通信,允许用户通过 AI 创建和编辑 MIDI 与音频轨道、选择乐器和效果、控制播放等。技术上采用 JSON 协议和套接字通信,适用于音乐创作、实时制作、教学及音频后期处理等多种场景。

Audyo

Audyo是一款文本到语音的AI语音转换器,允许用户通过打字创建和编辑人类质量的AI语音。