语音识别 - 智狐AI导航

Gliglish

Gliglish 是一款基于 AI 技术的口语学习平台，通过语音识别和自然语言处理技术，模拟真实对话场景，帮助用户提升口语和听力能力。支持多语言学习，包括英语、中文、日语、韩语、德语、法语等，并提供即时语法和发音反馈。用户可调节对话速度，实现个性化学习。此外，Gliglish 支持多语言语音输入和输出，适合语言初学者及需要强化特定语言技能的学习者。

AI项目与工具 2025年06月12日 98 点赞 0 评论 694 浏览

AI城市

AI城市，集合了国内外数千款AI工具，覆盖了多个领域，可以根据自己的需求和体验选择适合自己的工具。

Ai学习资源 2025年06月05日 93 点赞 0 评论 694 浏览

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器，支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能，适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好，操作简便。

AI项目与工具 2025年06月12日 61 点赞 0 评论 688 浏览

TransDuck

翻译+配音的一站式音视频处理解决方案，助力音视频创作者实现自动化的内容出海与内容引进。

字幕配音 2025年06月05日 81 点赞 0 评论 688 浏览

MiniCPM

MiniCPM-o 2.6 是一款高性能的多模态大模型，具备 8B 参数量，支持视觉、语音及多模态直播等多种功能。其在图像处理、语音识别和实时交互方面表现优异，采用高效的 token 技术提升推理速度，可在端侧设备上运行。支持多种语言和音色配置，适用于智能助手、内容创作、教育、客服和医疗等多个领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 681 浏览

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架，专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力，可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域，同时支持预训练模型微调和端到端开发流程，为企业提供高效灵活的解决方案。

AI项目与工具 2025年06月12日 38 点赞 0 评论 674 浏览

TTS-Voice-Wizard

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100...

Ai语音工具 1970年01月01日 0 点赞 0 评论 672 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 671 浏览

Chat Video

Chat Video 基于AI的高效视频学习工具，具有语音识别、摘要总结、AI 问答等功能。

视频剪辑 2025年06月05日 25 点赞 0 评论 667 浏览

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备，支持多模态感知与多维表达，提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音，接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域，提升服务效率与用户体验。

AI项目与工具 2025年06月12日 10 点赞 0 评论 664 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期