语音识别 - 智狐AI导航

魔撰写作

全新的AI写作工具，拥有智能润色、实时纠错、全能词典、修辞、翻译等众多辅助创作功能，让您手握灵感、敲出不凡。

AI写作对话 1970年01月01日 0 点赞 0 评论 279 浏览

滴滴人工智能实验室

全球智能交通的前沿科技实验室

Ai科技公司 1970年01月01日 0 点赞 0 评论 294 浏览

腾讯AI实验室

共同打造产学研用一体的 AI 生态

Ai科技公司 1970年01月01日 0 点赞 0 评论 328 浏览

VideoTrans

一个开源的视频翻译和配音工具，VideoTrans能够一键识别视频字幕、翻译成其他语言以及进行多种语音合成，最终输出带字幕和配音的目标语言的视频。

字幕配音 2025年06月05日 84 点赞 0 评论 410 浏览

Faster Whisper

Faster Whisper 是一款基于 OpenAI Whisper 模型的高效语音识别工具，利用 CTranslate2 引擎显著提升转写速度并降低内存消耗。它支持多语言处理，可应用于实时语音转写、视频字幕生成、客户服务、医疗记录等领域。其核心技术包括 8 位量化、语音活动检测（VAD）及模型优化，同时提供灵活的 API 接口供开发者集成。

AI项目与工具 2025年06月12日 30 点赞 0 评论 431 浏览

BING翻译

输入网址则可启动网页全翻译功能

Ai语音工具 1970年01月01日 0 点赞 0 评论 439 浏览

Hertz

Hertz-Dev是一款由Standard Intelligence开发的开源音频模型，专注于低延迟实时对话AI。它具备强大的音频生成与处理能力，能够处理和生成高质量的音频信号，并支持多任务微调，适用于语音识别、语音合成等多种应用场景。此外，Hertz-Dev还提供了音频自动编码、流式生成等功能，广泛应用于智能助手、客户服务、语音识别及合成等领域。

AI项目与工具 2025年06月12日 48 点赞 0 评论 442 浏览

Speech Studio

Speech Studio是一套用于构建和集成Azure认知服务语音服务功能到应用程序中的工具。它为创建项目提供了一种无需代码的方法，可以访问诸如实时语音到文本、自定义语音识别模型、发...

Ai语音工具 1970年01月01日 0 点赞 0 评论 450 浏览

Tailor

Tailor是一款免费开源的AI视频编辑工具，提供视频编辑、生成和优化三大功能。它能够实现人脸剪辑、语音剪辑、口播生成、字幕生成、色彩生成等功能，并支持背景更换及流畅度和清晰度优化。最新版本增加了语音驱动的口播生成和模型自检修复机制，进一步提升了用户体验。

AI项目与工具 2025年06月12日 79 点赞 0 评论 451 浏览

Chinese

Chinese-LiPS是由智源研究院与南开大学联合开发的高质量中文多模态语音识别数据集，包含100小时语音、视频及手动转录文本。其创新性融合唇读视频与幻灯片内容，显著提升语音识别性能，实验表明可降低字符错误率约35%。适用于教学、科普、虚拟讲解等复杂语境，为多模态语音识别研究提供丰富数据支持。

AI项目与工具 2025年06月11日 47 点赞 0 评论 455 浏览

语音识别

首页

语音识别

列表

默认

浏览次数

发布日期