语音

开搜AI

开搜AI,一款面向大众,直达答案的AI问答搜索引擎

Lobe Chat

Lobe Chat 是一个免费开源的高性能 AI 聊天机器人框架,具备多种功能,如 GPT-4 视觉识别、文字语音转换、灵活的插件系统及个性化主题模式。用户能够轻松部署和扩展功能,适用于各种场景。该框架已在 GitHub 上获得近 14K 星标,展示了其受欢迎程度和实用性。

HeyGen

HeyGen是一款AI数字人视频创作平台,具备即时数字人视频制作、多语言翻译配音、语音克隆、文本转语音等功能。它提供了丰富的视频模板库和强大的素材库,支持用户轻松创建高质量的数字人视频。HeyGen适用于多种场景,包括讲解说明、市场营销和企业培训,助力用户提高工作效率和视频质量。

OpenVoice

OpenVoice是一款由MyShell开发的免费开源AI语音克隆工具,其主要功能包括精准的音色和音调克隆及灵活的语音风格控制。该工具能够捕捉并复制不同语言或口音的音色,生成自然流畅的语音,并支持零样本跨语言语音克隆。开发者可以通过GitHub项目地址进行本地安装和运行,也可以通过Lepton AI、MyShell或HuggingFace提供的在线演示体验该工具。

MeloTTS

MeloTTS是一个高质量的多语言文本转语音(TTS)库,由MyShell AI开发。该工具支持多种语言的文本转语音任务,包括英语(含不同口音)、西班牙语、法语、中文、日语和韩语,并具备快速的语音合成速度。MeloTTS不仅支持中英混合发音,还易于安装和使用,适用于多种操作系统和环境。用户可以在GitHub和Hugging Face平台上获取和体验MeloTTS。

VoiceCraft

VoiceCraft是一款开源的神经编解码器语言模型,专攻零样本语音编辑和文本到语音(TTS)任务。它采用Transformer架构,通过token重排过程结合因果掩蔽和延迟叠加技术,实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色,适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。

Voice Engine

Voice Engine是由OpenAI开发的AI语音合成和声音克隆技术。该技术能够通过15秒的音频样本和文本输入生成自然语音。它已在OpenAI的文本到语音API和ChatGPT的语音功能中应用。Voice Engine广泛应用于教育、翻译、远程服务提供、支持言语残障者以及帮助恢复患者声音等方面。为了确保技术安全,OpenAI实施了严格的使用政策和安全措施。