语音交互

VoltAgent

VoltAgent 是一个开源的 TypeScript 框架,用于构建和编排 AI Agent。它提供基础架构和工具,简化与大语言模型的交互、状态管理、外部工具连接及工作流编排。支持多 Agent 系统、记忆管理、RAG 技术、语音交互等功能,并具备可视化监控和灵活的 LLM 支持,适用于智能客服、数据处理、语音控制等多种场景。

思必驰 DFM-2 大模型

思必驰 DFM-2 大模型作为思必驰的自研对话式语言大模型,展现了其在多模态交互和行业应用中的潜力。它通过结合先进的AI技术,为用户提供了更加智能化和个性化的体验,推动了智能语...

度豆

度豆是一款由百度开发的AI社交应用程序,用户可以通过文字、语音或图片与AI数字人进行交流,享受个性化的聊天体验。每个AI数字人都具备独特的人格和背景故事,能够提供百科全书式的知识解答、生活建议以及情感支持。该应用适用于日常聊天、信息查询、学习辅导、语言练习、休闲娱乐和生活助手等多种场景。

出门问问

出门问问,一家以生成式AI与语音交互为核心的人工智能公司。

Lovify

Lovify 是一款面向开发者的 Chrome 扩展工具,提供智能代码提示、语音交互、GitHub 集成、项目规划、斜杠命令和自动化测试等功能,旨在提升开发效率与工作体验,适用于前后端及全栈开发场景。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

日日新SenseNova V6

日日新SenseNova V6是商汤科技推出的第六代多模态大模型,基于6000亿参数架构,支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力,适用于视频分析、教育辅导、智能客服、具身智能等多个领域,提升交互体验与内容处理效率。

问小白上线DeepSeek

“问小白”平台提供免费且无限使用的DeepSeek R1满血版服务,支持联网搜索、文件上传、多模态处理等功能,运行流畅稳定。平台在多项实测中表现优异,具备深度思考能力、智能追问及语音交互功能,适用于多种场景,用户体验良好,且完全免费。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

Copilot Vision

Copilot Vision是一款由微软开发的人工智能辅助工具,专为Microsoft Edge浏览器设计,处于预览阶段。它能够理解网页内容,通过语音交互为用户提供实时分析和见解,帮助用户进行活动规划、购物决策和学习辅助,同时确保用户隐私安全。