实时语音 - 智狐AI导航

Mini

Mini-Omni 是一个开源的端到端语音对话模型，具备实时语音输入和输出的能力，能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别（ASR）或文本到语音（TTS）系统，直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法，通过批量并行策略提高性能，同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能，适用于智能助手、客户服务

AI项目与工具 2025年06月12日 93 点赞 0 评论 885 浏览

VITA

VITA-Audio 是一款开源的端到端多模态语音大模型，具备低延迟、高推理效率和多模态交互能力。其核心创新包括轻量级 MCTP 模块和四阶段渐进式训练策略，使模型在语音识别、文本转语音和口语问答等任务中表现优异。支持实时对话、智能客服、教育辅助、医疗辅助及内容创作等多种应用场景，适用于各类语音交互系统。

AI项目与工具 2025年06月11日 19 点赞 0 评论 841 浏览

Outspeed

Outspeed 是一个专注于实时语音和视频 AI 应用开发的平台，提供强大的流媒体处理、低延迟推理、即时部署等功能，支持企业级合规标准。其核心特性包括灵活的模型定制、全面的 SDK 支持以及高效的应用监控工具，广泛应用于客户服务、教育、医疗保健、娱乐、安全监控和质量控制等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 762 浏览

BANTER AI

BanterAI 是一款基于人工智能技术的创新平台，允许用户与名人、专家及历史人物的虚拟化身进行实时语音对话。其核心功能包括AI克隆体创建、个性化定制、实时互动、数据分析及快速响应，广泛应用于粉丝互动、内容创作、品牌推广、教育培训及娱乐体验等领域。

AI项目与工具 2025年06月12日 25 点赞 0 评论 732 浏览

Offerin AI

一款基于GPT-4的AI面试笔试助手，支持实时语音识别、极速回答、精确搜索和代码生成等功能。

招聘求职 2025年06月05日 95 点赞 0 评论 716 浏览

Offer蛙

Offer蛙是一款AI驱动的面试辅助工具，支持实时语音识别与答案生成，结合高频题库和简历信息，为用户提供专业级回答。具备代码题优化、多平台适配及隐私保护功能，适用于技术面试和线上面试场景，提升面试表现与专业形象。

AI项目与工具 2025年06月11日 31 点赞 0 评论 713 浏览

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API，支持文本与音频输入输出，具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接，支持事件驱动的交互模式，适用于客户服务、语言学习、游戏娱乐等多种应用场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 700 浏览

EVI 3

EVI 3是Hume AI推出的全新语音语言模型，能够同时处理文本和语音标记，实现自然、富有表现力的语音交互。它支持高度个性化，根据用户提示生成任何声音和个性，并实时调节情感和说话风格。在与GPT-4o等模型的对比中，EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优，具备低延迟响应能力，可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个

AI项目与工具 2025年06月11日 45 点赞 0 评论 700 浏览

Emote

Emote是一款基于AI技术的智能笔记工具，支持实时语音转录、情感分析及关键词提取等功能。它能帮助用户记录生活、管理时间、分析消费习惯，并提供私人笔友服务以实现情感支持。同时，Emote允许用户自定义笔记本和标签，满足个性化需求。

AI项目与工具 2025年06月12日 36 点赞 0 评论 677 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 634 浏览

实时语音

首页

实时语音

列表

默认

浏览次数

发布日期