语音

CosyVoice 2.0

CosyVoice 2.0是一款基于深度学习的语音生成大模型,通过有限标量量化技术和新型架构设计,在发音准确性、音色一致性和韵律表达方面表现出色。其支持流式推理,延迟低至150ms,广泛应用于智能助手、有声读物、视频配音及语言学习等领域,同时具备多语言支持和情感控制等功能。

Verbalate Ai

Verbalate是一款通用的视频翻译和唇语同步工具,能够轻松地将音频/视频内容转换为多种语言,并具备语音克隆和唇语同步功能。

​33搜帧

​33搜帧是一个可以通过文本描述来搜索视频画面的工具

speakSync

AI语音翻译器,无缝语音和文本转换,一款基于ChatGPT的AI语音翻译应用,支持70多种语言。它可以实现面对面语音通话。

OfferinAI

OfferinAI是一款面向求职者和招聘者的智能工具,集成了实时语音识别、快速响应、网络搜索及代码生成等功能,旨在提升用户在面试和笔试中的表现。它支持多种模式,适用于在线面试、笔试辅助、技能测试及模拟面试等场景,帮助用户在多轮面试中获得竞争优势。

Freed

Freed是一款基于AI技术的医疗文档助手,通过语音转录和自然语言处理技术,实现医患对话的自动化记录与结构化文档生成。其核心功能包括环境感知技术、个性化学习以及多语言支持,广泛适用于门诊、住院、急诊及远程医疗等多种医疗场景,旨在减轻医生文书负担,提升工作效率。

Linly

一款开源的多语言AI配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。

VAPI

VAPI是一个面向开发者的语音AI平台,凭借其简便的API集成、高精度语音识别、多语言支持以及定制化能力,能够协助开发者快速将语音技术嵌入至不同类型的软件应用中。它注重数据隐私与安全性,并提供多样化的应用场景,如智能助手、客户服务自动化、教育培训、医疗健康及呼叫中心等,帮助企业提升运营效率和服务质量。

WhisperChain

WhisperChain 是一款开源语音识别工具,支持实时语音转文本并提供文本优化功能,可去除填充词、优化语法。用户可通过全局热键快速启动语音输入,处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构,适用于会议记录、写作辅助等场景。

海豚配音

一款集逼真效果、丰富音色和细腻情感于一体的全能AI配音平台。拥有超过500种栩栩如生的真人音色和1000多种独具特色的二次元音色。