AI语音识别

Whisper

Whisper是一个开源的自动语音识别系统，经过68万小时的多语言和多任务监督数据训练

Ai语音工具 2026年06月27日 0 点赞 0 评论 929 浏览

RealtimeSTT

RealtimeSTT是一款开源的实时语音转文本库，具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别，适用于语音助手、会议记录、实时字幕等场景，提供灵活的音频输入与预处理机制，便于开发者快速集成和扩展。

AI项目与工具 2025年06月12日 97 点赞 0 评论 872 浏览

悦录

悦录依托同花顺的语音识别技术，为用户提供免费的录音转文字、语音转文字、视频字幕等服务，1小时音频最快5分钟出稿，准确率高达97%+，全程加密，文件信息安全。

创作工具 2026年06月27日 0 点赞 0 评论 825 浏览

悦音配音

AI智能配音工具，独有的AI智能配音技术，更专业，完美贴近真人配音，AI模仿真人情感（怀旧、欢快、激情、伤心、抒情、惊讶等），支持多音字、停顿、整数、小数、数字等特色发音，...

创作工具 2026年06月27日 0 点赞 0 评论 798 浏览

Subtitle Edit

Subtitle Edit 是一款免费开源的多功能字幕编辑器，支持超过300种字幕格式。它具备字幕同步、创建、翻译、音频波形可视化、视频播放、AI语音识别、AI自动翻译和OCR技术等功能，适用于影视后期、多语言内容创作、教育培训及辅助听力障碍者等场景。其界面友好，操作简便。

AI项目与工具 2025年06月12日 61 点赞 0 评论 790 浏览

FineVoice

FineVoice是一种人工智能数字语音解决方案，可以帮助用户增强声音，并实时改变声音。它配有实时变声器，无限的音频和声音效果，录音室质量的录音机，文本到语音，语音到文本。

创作工具 2026年06月27日 0 点赞 0 评论 790 浏览

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别（ASR）模型系列，支持普通话、中文方言和英语，具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本，分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色，且已开源，推动语音识别技术的发展。

AI项目与工具 2025年06月12日 82 点赞 0 评论 750 浏览

TTS-Voice-Wizard

TTS语音向导是一种工具，允许用户通过微软Azure语音识别和TTS将语音转换为文本，然后再转换回语音。它还向VRChat发送OSC消息以在头像上显示文本。该工具有许多自定义选项，包括100...

Ai语音工具 2026年06月27日 0 点赞 0 评论 748 浏览

Chat Video

Chat Video 基于AI的高效视频学习工具，具有语音识别、摘要总结、AI 问答等功能。

视频剪辑 2025年06月05日 25 点赞 0 评论 745 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 721 浏览

AI语音识别

首页

AI语音识别

列表

默认

浏览次数

发布日期