AI语音 - 智狐AI导航

Kokoro

Kokoro-TTS是一款由hexgrad开发的轻量级文本转语音工具，基于StyleTTS 2与ISTFTNet架构，支持多种语音风格和自然语调，具备实时处理能力。支持美式与英式英语，提供10种语音包，适用于教育、游戏、客服等多种场景。支持本地部署与API集成，确保数据安全与高效运行。

AI项目与工具 2025年06月12日 33 点赞 0 评论 867 浏览

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 799 浏览

Weebo

Weebo是一款基于AI技术的实时语音交互工具，支持语音识别与生成，实现自然流畅的语音对话。具备多语言支持和实时响应能力，适用于个人助理、娱乐互动和教育辅导等场景。技术上融合了Whisper Small、Llama 3.2等模型，提供便捷高效的语音交互体验。

AI项目与工具 2025年06月12日 72 点赞 0 评论 549 浏览

T2A

T2A-01-HD是一款支持声音克隆与多语言合成的AI语音模型，可精准还原原声特征与情感表达。具备智能情感系统、多语言支持及高级参数控制功能，适用于有声读物、影视配音、教育、语言学习等多种场景，提供高质量、个性化的语音输出。

AI项目与工具 2025年06月12日 46 点赞 0 评论 430 浏览

百聆

百聆是一款开源语音对话系统，融合语音识别、语音活动检测、大语言模型和语音合成技术，实现自然流畅的语音交互。支持低延迟运行，无需GPU，适用于边缘设备。具备记忆、工具调用和任务管理等功能，适用于智能家居、个人助理、车载系统等多种场景，提供高效的语音交互解决方案。

AI项目与工具 2025年06月12日 90 点赞 0 评论 529 浏览

WhisperKeyboard

WhisperKeyboard 是一款基于 OpenAI Whisper 技术的 AI 语音输入工具，支持多语言实时语音转文字，适用于写作、编程、会议记录等场景。具备离线识别、文本润色、多语言翻译和隐私保护等功能，兼容多平台，提升输入效率与文本质量。

AI项目与工具 2025年06月12日 76 点赞 0 评论 665 浏览

BoldVoice

BoldVoice 是一款专注于英语发音训练的工具，结合专业口音课程与AI语音分析技术，帮助非英语母语者提升发音准确性和口语自信。用户可通过录音获得实时反馈与改进建议，并根据个人母语背景定制学习计划。应用还提供发音测试、口音对比和多场景练习功能，适用于职场、考试、日常交流及表演等领域，有效提升英语口语能力。

AI项目与工具 2025年06月12日 100 点赞 0 评论 594 浏览

SpeechGPT 2.0

SpeechGPT 2.0-preview 是复旦大学 OpenMOSS 团队开发的拟人化实时交互系统，基于大量中文语音数据训练，支持低延迟、高自然度的语音与文本交互。具备情感控制、实时打断、多风格语音生成等功能，适用于智能助手、内容创作及无障碍通信等场景，技术上融合了语音-文本联合建模与多阶段训练策略，提升语音表现力与智能化水平。

AI项目与工具 2025年06月12日 23 点赞 0 评论 551 浏览

Hibiki

Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器，支持实时语音到语音（S2ST）和语音到文本（S2TT）的翻译。其基于多流语言模型架构，结合弱监督学习和上下文对齐技术，实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景，具备良好的实用性和可扩展性。

AI项目与工具 2025年06月12日 31 点赞 0 评论 612 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 671 浏览

AI语音

首页

AI语音

列表

默认

浏览次数

发布日期