转文字

Unmute

Unmute 是 Kyutai 推出的低延迟语音交互系统,专注于语音转文字和文字转语音功能。基于先进 AI 模型,提供实时、高效的语音交互体验,支持用户与 AI 进行语音交流,并能将文字内容快速转换为自然流畅的语音输出。其低延迟处理能力实现无缝交互,具备快速集成、随时打断、10秒生成声音、多样化调整等功能,适用于在线教育、智能客服、语音助手、游戏娱乐和企业会议等场景。

Notato

Notato 是一款基于 AI 的笔记应用,支持音频、视频、文档及网页内容的自动转录与结构化整理,生成摘要、闪卡和测验,适用于学习、会议、资料整理等多种场景。其具备多语言翻译、错题分析、后台录音等功能,提升信息处理与知识管理效率。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

Aqua Voice

Aqua Voice 是一款AI驱动的语音转录与文档编辑工具,支持语音转文字、自然语言指令编辑、自动格式优化及多语言处理。它适用于高效写作、辅助输入及跨平台办公场景,兼容多种主流应用,提升文本创作效率与准确性。

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型,支持40种语言及22种中文方言,具备高精度语音转文字能力。采用CTC-Attention架构,结合E-Branchformer和Transformer技术,提升识别效率与准确性。模型开源,支持自定义语言与地区设置,适用于会议记录、语音输入、智能助手等多种场景。

Wispr Flow

Wispr Flow 是一款基于AI技术的语音转文字工具,支持100多种语言,具备自动编辑、上下文感知和低音量识别等功能,提升写作与沟通效率。提供免费基础版及付费专业版和团队版,适用于写作、商务、学习等多种场景,注重用户隐私保护,操作便捷自然。

WhisperChain

WhisperChain 是一款开源语音识别工具,支持实时语音转文本并提供文本优化功能,可去除填充词、优化语法。用户可通过全局热键快速启动语音输入,处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构,适用于会议记录、写作辅助等场景。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

AstrBot

AstrBot是一款多功能聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字、网页搜索等功能。它采用模块化设计,支持插件开发和多平台部署,适用于企业客服、个人助手、教育辅导等多个场景,提供高效的智能交互体验。

LipRead Pro

LipRead Pro 是一款基于AI技术的视频唇读工具,可将视频中的唇部动作转换为文字,支持多语言和口音识别。其高精度算法确保了文字输出的准确性,适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便,处理高效,注重用户数据隐私保护,适合专业用户和普通用户使用。