百聆(Bailing)是一款基于语音识别(ASR)、语音活动检测(VAD)、大语言模型(LLM)和语音合成(TTS)技术构建的开源语音对话系统。该工具能够实现自然流畅的语音交互,具备端到端低延迟特性,适用于多种边缘设备和资源受限环境。其核心优势包括无需GPU支持、模块化架构、支持记忆功能、可调用外部工具以及任务管理能力,为用户提供高质量的语音交互体验。 百聆的主要功能涵盖语音输入与识别、语音活动检测、智能对话生成、语音输出与合成、支持打断、个性化记忆、工具调用及任务管理。在技术实现上,系统采用FunASR进行语音识别,silero-vad用于语音活动检测,deepseek作为核心语言模型,edge-tts用于语音合成,确保整体系统的高效性与准确性。 项目已开源,用户可通过GitHub获取代码并进行二次开发或集成。百聆适用于智能家居控制、个人助理服务、汽车智能交互、教育辅助及办公辅助等多个场景,具有广泛的应用前景。
发表评论 取消回复