语音合成 - 智狐AI导航

Chatterbox

Chatterbox是Resemble AI推出的开源文本转语音（TTS）模型，基于0.5B规模的LLaMA架构，用超过50万小时精选音频训练。它支持零样本语音克隆，仅需5秒参考音频即可生成高度逼真的个性化语音，并具备情感夸张控制功能，可调节情绪、语速和语调。Chatterbox还拥有超低延迟的实时语音合成能力，延迟低至200毫秒以下，适用于交互式应用。此外，它采用安全水印技术防止滥用，适用于内容

AI项目与工具 2025年06月11日 55 点赞 0 评论 527 浏览

Fish Audio

Fish Audio是一款生成式AI文本转语音（TTS）和声音克隆平台，支持多种语言和声音风格，可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音，并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域，满足个性化语音内容生成需求。

AI项目与工具 2025年06月11日 79 点赞 0 评论 531 浏览

PlayDiffusion

PlayDiffusion是Play AI推出的音频编辑模型，基于扩散模型技术实现音频的精细编辑和修复。它将音频编码为离散标记序列，通过掩码处理和去噪生成高质量音频，保持语音连贯性和自然性。支持局部编辑、高效文本到语音合成、动态语音修改等功能，具有非自回归特性，提升生成速度与质量。适用于配音纠错、播客剪辑、实时语音互动等场景。

AI项目与工具 2025年06月11日 94 点赞 0 评论 827 浏览

OpenAudio S1

OpenAudio S1是Fish Audio推出的文本转语音（TTS）模型，基于200万小时音频数据训练，支持13种语言。采用双自回归架构和RLHF技术，生成自然流畅的语音，支持50多种情感和语调标记。具备零样本和少样本语音克隆功能，仅需10到30秒音频即可生成高保真声音。适用于视频配音、播客、游戏角色语音、虚拟助手、游戏娱乐、教育培训及客服系统等场景。提供40亿参数完整版和5亿参数开源版，满足

AI项目与工具 2025年06月11日 28 点赞 0 评论 673 浏览

MoonCast

MoonCast 是一个零样本播客生成系统，能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练，支持中文和英文，生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本，并利用语音合成模块转换为最终音频，具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强，适用于内容创作、教

AI项目与工具 2025年06月11日 63 点赞 0 评论 566 浏览

Eleven v3

Eleven v3是ElevenLabs推出的先进文本转语音模型，支持情感和语调的精确控制，通过内联音频标签实现多样化的表达。它支持多说话人对话，能模拟真实交谈中的语气变化，覆盖超70种语言，适用于媒体影视配音、有声读物制作、游戏开发和教育等领域，提供生动、真实的声音体验。

AI项目与工具 2025年06月11日 65 点赞 0 评论 607 浏览

Vocloner

Vocloner是一款基于人工智能的在线语音克隆工具，用户可通过上传目标语音音频并输入文本，快速生成克隆声音，无需训练语音网络。支持多语言及多种中文方言，提供经典版本和更新版本两种克隆选项，经典版使用Coqui TTS技术，更新版采用Coqui AI的XTTS工具，增强克隆效果。功能包括即时语音克隆、模型创建与保存、多语言支持、不同说话风格和角色模仿，适用于内容创作、无障碍支持、语言学习和个性化数

AI项目与工具 2025年06月11日 47 点赞 0 评论 690 浏览

优码配音网

专业的网络在线配音软件，提供在线文字转语音。

字幕配音 2025年06月05日 61 点赞 0 评论 732 浏览

33搜帧

33搜帧是一个可以通过文本描述来搜索视频画面的工具

字幕配音 2025年06月05日 56 点赞 0 评论 665 浏览

鸭鸭配音

一个在线配音网站，是目前为数不多的免费的在线文字转语音的配音神器，用户只需输入文本，即可生成高度拟人的智能配音。

字幕配音 2025年06月05日 80 点赞 0 评论 853 浏览

语音合成

首页

语音合成

列表

默认

浏览次数

发布日期