语音 - 智狐AI导航

PDF2Audio

PDF2Audio 是一款开源工具，支持将 PDF 文档转换为音频内容，适用于播客制作、教育、业务演示等多个场景。其核心功能包括 PDF 转文本、生成播客脚本、文本转语音转换、多语言支持及高级编辑功能。用户可通过自定义选项调整文本生成模型、语音风格等，支持批量处理和多种模板适配，方便用户根据需求生成高质量音频。

AI项目与工具 2025年06月12日 35 点赞 0 评论 857 浏览

EzAudio

EzAudio是一款基于文本到音频（Text-to-Audio, T2A）生成模型，通过优化的扩散变换器架构和高效的数据训练策略，实现了快速生成高质量音频的功能。它支持多种应用场景，如音乐创作、影视后期制作、语音合成等，并具备高保真度和低资源消耗的特点。

AI项目与工具 2025年06月12日 73 点赞 0 评论 601 浏览

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型，融合了语音识别、自然语言处理、情感理解和对话管理等功能，具备实时性和端到端交互特性。它通过深度学习技术和离散表示法，实现从语音输入到语音输出的全流程自动化，生成自然流畅的语音回应，并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

AI项目与工具 2025年06月12日 91 点赞 0 评论 716 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 764 浏览

Steve AI

Steve AI 是一款基于人工智能技术的云端视频生成平台，支持文本、博客、网页或音频内容转化为高质量视频和动画。它提供文本到视频、AI语音到视频、动画AI头像视频等多种功能，拥有超过300个AI头像及庞大的媒体库，同时配备40多种视频编辑工具。用户无需专业技能即可快速制作出专业级视频内容，广泛适用于社交媒体营销、教育培训、企业培训、内容营销和个人品牌建设等领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 973 浏览

Outspeed

Outspeed 是一个专注于实时语音和视频 AI 应用开发的平台，提供强大的流媒体处理、低延迟推理、即时部署等功能，支持企业级合规标准。其核心特性包括灵活的模型定制、全面的 SDK 支持以及高效的应用监控工具，广泛应用于客户服务、教育、医疗保健、娱乐、安全监控和质量控制等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 848 浏览

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用，专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能，能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术，支持多种语言，完全离线运行，保障用户隐私安全。

AI项目与工具 2025年06月12日 44 点赞 0 评论 856 浏览

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API，支持文本与音频输入输出，具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接，支持事件驱动的交互模式，适用于客户服务、语言学习、游戏娱乐等多种应用场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 777 浏览

CapsWriter

CapsWriter-Offline是一款基于PC端的离线语音输入与字幕转录工具，支持实时语音转文字功能，具备高准确率和无限时长录音能力。其核心技术依托于深度学习模型，可处理中英文混合语音，并提供热词自定义功能以提升特定术语的识别效果。此工具适用于会议记录、学术讲座、视频字幕生成等多种场景，同时确保用户数据的安全与隐私。 ---

AI项目与工具 2025年06月12日 38 点赞 0 评论 649 浏览

LiveKit Agents

LiveKit Agents 是一款基于 Python 的多模态 AI 工具框架，支持实时语音、视频和数据交互。其核心功能包括基于 WebRTC 的低延迟通信、与 OpenAI 等服务的深度集成、丰富的插件生态系统以及负载均衡与自动扩展能力。适用于虚拟助手、客户服务、实时翻译、视频内容审核等多个应用场景。

AI项目与工具 2025年06月12日 55 点赞 0 评论 846 浏览

语音

首页

语音

列表

默认

浏览次数

发布日期