AI语音

Orpheus TTS

Orpheus TTS 是一款基于 Llama-3b 架构的开源文本到语音系统,支持自然、富有情感的语音生成。具备零样本语音克隆能力,无需预训练即可模仿特定语音,延迟低至 200 毫秒,适合实时应用。支持多种语音风格和情感控制,适用于有声读物、虚拟助手、游戏、教育等多个领域。

Chat Video

Chat Video 基于AI的高效视频学习工具,具有语音识别、摘要总结、AI 问答等功能。

TTS-Voice-Wizard

TTS语音向导是一种工具,允许用户通过微软Azure语音识别和TTS将语音转换为文本,然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项,包括100...

Whisper

Whisper是一个开源的自动语音识别系统,经过68万小时的多语言和多任务监督数据训练

EmotiVoice

EmotiVoice是网易有道推出的开源文本到语音系统,支持中英文及2000+音色,能根据提示生成带情感的语音。具备情感合成、语音克隆、多语言支持等功能,提供Web界面和API接口,适用于有声读物、智能助手、教育、客服等场景,技术上支持高效部署与模型微调。

LiSTNR

Listnr是一个人工智能语音生成器和文本到语音的在线工具,允许用户从142种不同语言的900多个声音的文本创建逼真的画外音。

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器,支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能,适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好,操作简便。

TTS-vue

TTS-Vue是一个开源的桌面应用程序,它利用了微软的语音合成技术,为用户提供了一个简单易用的文本到语音转换工具。

MURF.AI

在几分钟内制作出录音棚品质的配音。将 Murf 逼真的 AI 声音用于播客、视频和所有专业演示

Text to Bark

Text to Bark 是由 ElevenLabs 推出的全球首个 AI 狗语文本转语音模型,能将文字转化为高度逼真的狗吠声,支持多种犬种选择和语气调整。技术基于深度学习和犬类语言学研究,适用于宠物训练、科研、娱乐及家庭互动等多种场景,具备良好的可扩展性和实用性。