语音识别 - 智狐AI导航

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统，支持低延迟交互与多模态输入输出。系统采用模块化架构，允许灵活配置语音识别、语言模型和语音合成等组件，兼容本地与云服务。支持2D/3D数字人渲染，适用于客户服务、教育、娱乐及企业应用等多个场景，为开发者提供高效、灵活的AI对话解决方案。

AI项目与工具 2025年06月11日 81 点赞 0 评论 627 浏览

Loora

Loora是一款AI驱动的英语口语学习工具，通过模拟真实场景帮助用户提升英语表达能力。支持商务、面试、日常交流等多场景练习，提供实时发音、语法及流利度反馈。具备24小时可用性、个性化课程设计、语音识别与翻译功能，并支持学习进度跟踪，适用于各类英语学习者。

AI项目与工具 2025年06月12日 30 点赞 0 评论 628 浏览

Videotoword.ai

Videotoword.ai 是一款以AI驱动的在线服务，支持将音频和视频文件转化为文本，具有高精度（99.9%）和多语言支持（98种以上）。它能处理长达10小时的文件，具备自动转录、文本编辑导出及AI摘要生成功能，广泛应用于教育、媒体、法律和企业等领域。

AI项目与工具 2025年06月12日 36 点赞 0 评论 630 浏览

VideoCaptioner

VideoCaptioner是一款基于大语言模型的智能字幕处理工具，支持语音识别、字幕优化、翻译、样式调整及视频合成等功能。无需GPU即可运行，兼容多语言和多种字幕格式，适用于视频创作者、教育工作者及字幕翻译团队，提升字幕制作效率与质量。

AI项目与工具 2025年06月12日 50 点赞 0 评论 632 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 633 浏览

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型，支持实时语音转文本，具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术，适应不同长度的音频输入，计算需求随音频长度变化而调整，适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

AI项目与工具 2025年06月12日 76 点赞 0 评论 636 浏览

VXlive

VXlive是一款以语音社交为核心的多功能应用，支持语音聊天、直播、1对1视频通话及AI互动功能。内置AI语音识别与语音日记，提供个性化互动体验，增强用户情感陪伴。语音挑战活动提升社交趣味性，适合各类用户拓展社交圈，尤其适合社交焦虑人群。应用注重互动性和社区氛围，打造轻松友好的社交环境。

AI项目与工具 2025年06月12日 78 点赞 0 评论 636 浏览

AiSofiya

Sofiya是一款由人工智能驱动的文本到语音转换器，可以快速准确地将文本合成为超过135种语言和方言的自然语音。它支持多种音频格式和频率，并有一个强大的声音工作室，以合并和增强...

Ai语音工具 1970年01月01日 0 点赞 0 评论 637 浏览

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术，帮助用户基于语音转文字的结果，选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面，以及支持多段剪辑和自动生成SRT字幕文件。

AI项目与工具 2024年07月01日 55 点赞 0 评论 640 浏览

Lemon Slice Live

Lemon Slice Live 是一款基于扩散变换器模型（DiT）的实时视频聊天工具，可将图片转化为可互动的动画角色，支持多语言和实时对话。通过优化模型提升流畅度与响应速度，适用于娱乐、教育、营销等多种场景，结合语音识别、文本生成等技术，提供完整的交互体验。

AI项目与工具 2025年06月11日 61 点赞 0 评论 641 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期