语音
Whisper语音识别模型
Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
Enhance Speech
一款由 Adobe 出品的录音增强工具,可以去除音频背景噪音,让语音或者录音听起来就像在专业录音室中录制一样,使音频具有专业录音室品质录音的干净、专业的声音。
Ciallo TTS
Ciallo TTS是一款开源的文本转语音工具,支持300多种语言和口音,提供语速、语调调节功能,并具备即时试听和长文本处理能力。适用于学习、工作、创作等场景,提升信息获取与内容制作的效率。
思必驰 DFM-2 大模型
思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...
VoiceCraft
VoiceCraft是一款开源的神经编解码器语言模型,专攻零样本语音编辑和文本到语音(TTS)任务。它采用Transformer架构,通过token重排过程结合因果掩蔽和延迟叠加技术,实现在现有音频序列内高效生成自然的语音。VoiceCraft在多种口音、风格和噪声条件下表现出色,适用于有声读物制作、视频内容创作、播客音频编辑及多语言内容生产等场景。
