低延迟 - 智狐AI导航

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高性能 AI 模型，具备低延迟、高效率及推理能力，适用于代码生成、智能代理和复杂任务处理。其优化设计降低了计算成本，适合大规模部署。该模型基于 Transformer 架构，结合推理机制和模型压缩技术，提升了响应速度与准确性，广泛应用于智能开发、内容生成和实时交互等领域。

AI项目与工具 2025年06月12日 33 点赞 0 评论 809 浏览

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 799 浏览

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 791 浏览

Outspeed

Outspeed 是一个专注于实时语音和视频 AI 应用开发的平台，提供强大的流媒体处理、低延迟推理、即时部署等功能，支持企业级合规标准。其核心特性包括灵活的模型定制、全面的 SDK 支持以及高效的应用监控工具，广泛应用于客户服务、教育、医疗保健、娱乐、安全监控和质量控制等领域。

AI项目与工具 2025年06月12日 41 点赞 0 评论 760 浏览

DeepEP

DeepEP 是 DeepSeek 开发的开源 EP 通信库，专为混合专家模型（MoE）的训练和推理设计。它提供高吞吐、低延迟的 GPU 内核，支持 NVLink 和 RDMA 通信，优化了组限制门控算法，兼容 FP8 等低精度数据格式。适用于大规模模型训练、推理解码及高性能计算场景，具有良好的系统兼容性和网络优化能力。

AI项目与工具 2025年06月12日 43 点赞 0 评论 753 浏览

VideoSDK

一种将实时视频和音频功能集成到 Web 或移动应用程序中的解决方案

Ai视频生成 2025年06月05日 14 点赞 0 评论 742 浏览

Unmute

Unmute 是 Kyutai 推出的低延迟语音交互系统，专注于语音转文字和文字转语音功能。基于先进 AI 模型，提供实时、高效的语音交互体验，支持用户与 AI 进行语音交流，并能将文字内容快速转换为自然流畅的语音输出。其低延迟处理能力实现无缝交互，具备快速集成、随时打断、10秒生成声音、多样化调整等功能，适用于在线教育、智能客服、语音助手、游戏娱乐和企业会议等场景。

AI项目与工具 2025年06月11日 58 点赞 0 评论 718 浏览

Mistral Small 3

Mistral Small 3 是一款由 Mistral AI 推出的开源大语言模型，具备 240 亿参数，支持多语言处理，适用于低延迟场景。模型基于 Transformer 架构，支持长文本输入，具备高性能和本地部署能力。其可定制性强，适用于虚拟助手、客服系统、自动化任务及专业领域应用，如医疗和法律咨询。

AI项目与工具 2025年06月12日 77 点赞 0 评论 718 浏览

Mureka O1

Mureka O1是昆仑万维推出的全球首款音乐推理大模型，采用“思维链”技术提升音乐生成质量与创作效率。支持多语言AI音乐创作，涵盖多种风格与情感表达，具备歌词生成、风格控制、音色克隆等功能。提供API接口与模型微调能力，适用于广告、影视、游戏、教育等多个场景，助力创作者高效完成音乐创作任务。

AI项目与工具 2025年06月12日 39 点赞 0 评论 715 浏览

Realtime API

Realtime API是一款由OpenAI研发的低延迟、多模态对话式API，支持文本与音频输入输出，具备实时语音处理、自然语音合成及多模态交互等功能。通过WebSocket协议实现持久连接，支持事件驱动的交互模式，适用于客户服务、语言学习、游戏娱乐等多种应用场景。

AI项目与工具 2025年06月12日 41 点赞 0 评论 698 浏览

低延迟

首页

低延迟

列表

默认

浏览次数

发布日期