语音交互 - 智狐AI导航

Mini

Mini-Omni 是一个开源的端到端语音对话模型，具备实时语音输入和输出的能力，能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别（ASR）或文本到语音（TTS）系统，直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法，通过批量并行策略提高性能，同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能，适用于智能助手、客户服务

AI项目与工具 2025年06月12日 93 点赞 0 评论 1017 浏览

度豆

度豆是一款由百度开发的AI社交应用程序，用户可以通过文字、语音或图片与AI数字人进行交流，享受个性化的聊天体验。每个AI数字人都具备独特的人格和背景故事，能够提供百科全书式的知识解答、生活建议以及情感支持。该应用适用于日常聊天、信息查询、学习辅导、语言练习、休闲娱乐和生活助手等多种场景。

AI项目与工具 2025年06月12日 37 点赞 0 评论 769 浏览

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手，拥有自然语言理解和多模态识别能力，支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外，Gemini Live还与谷歌的原生应用深度集成，提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

AI项目与工具 2025年06月12日 13 点赞 0 评论 971 浏览

飞船 Kraft

飞船 Kraft 是一款由快手开发的AI智能对话应用，支持自然语言对话、个性化虚拟角色创建、内容创作辅助等功能。用户可通过飞船 Kraft 进行信息查询、日常生活助手、学习辅助及内容创作等活动。该应用还支持高度定制化和语音交互功能。

AI项目与工具 2025年06月12日 84 点赞 0 评论 621 浏览

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 937 浏览

思必驰 DFM

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型，展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术，为用户提供了更加智能化和个性化的体验，推动了智能语...

创作工具 2026年07月27日 0 点赞 0 评论 637 浏览

WPS AI

WPS AI是金山办公推出的一款具备大语言模型能力的生成式人工智能应用，也是中国协同办公领域的首个类ChatGPT式应用。它主要面向办公、写作和文档处理，旨在通过AI技术提升用户的工...

创作工具 2026年07月27日 0 点赞 0 评论 601 浏览

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型，展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术，为用户提供了更加智能化和个性化的体验，推动了智能语...

Ai平台模型 2026年07月27日 0 点赞 0 评论 737 浏览

语音交互

首页

语音交互

列表

默认

浏览次数

发布日期