语音识别 - 智狐AI导航

Arctime

简单、强大、高效的跨平台字幕制作软件

字幕配音 2025年06月05日 34 点赞 0 评论 501 浏览

交交

交交是上海交通大学研发的口语对话情感大模型，支持多人对话、多语言交流、方言识别、角色扮演、情感互动及知识问答。具备端到端语音处理、多语言理解、实时音色克隆等功能，适用于教育、家庭、商务、客服等多个场景，展现出强大的语音交互能力与应用潜力。

AI项目与工具 2025年06月11日 12 点赞 0 评论 499 浏览

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型，拥有 1.5 亿参数，专注于长音频处理，支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色，具备高效的训练方法和多任务处理能力，适用于语音助手、实时转写、归档理解等场景。

AI项目与工具 2025年06月11日 43 点赞 0 评论 496 浏览

PaddleSpeech

PaddleSpeech是百度飞桨团队开发的开源语音处理工具，涵盖语音识别、语音合成、声纹识别、语音翻译等功能。支持多种接口形式，适用于智能语音助手、语音播报、身份验证等场景。基于PaddlePaddle框架，提供高效的深度学习模型和丰富的音频处理能力，适用于多种实际应用需求。

AI项目与工具 2025年06月12日 87 点赞 0 评论 496 浏览

Lyra

Lyra是一款由香港中文大学、SmartMore和香港科技大学联合研发的高效多模态大型语言模型（MLLM）。它通过整合视觉、语音和文本三种模态的信息，实现了强大的跨模态理解和推理能力。Lyra不仅擅长处理长语音数据，还支持流式文本-语音生成及跨模态信息交互，适用于智能助手、客户服务、教育培训、医疗健康等多个领域。

AI项目与工具 2025年06月12日 18 点赞 0 评论 494 浏览

URO

URO-Bench 是一个面向端到端语音对话模型的综合评估工具，支持多语言、多轮对话及副语言信息处理。它包含基础和高级两个赛道，分别涵盖16个和20个数据集，覆盖开放性问答、情感生成、多语言任务等。支持多种评估指标，提供简单易用的评估流程，并兼容多种语音对话模型。适用于智能家居、个人助理、语言学习等多个实际应用场景。

AI项目与工具 2025年06月12日 47 点赞 0 评论 492 浏览