Scribe 是由 ElevenLabs 推出的一款高精度语音转文本模型,专为多语言和复杂音频环境设计。该工具支持 99 种语言的语音识别,英语和意大利语的转录准确率分别达到 96.7% 和 98.7%,在小语种方面也表现出色。Scribe 能够区分最多 32 位说话者,并检测笑声、音效等非语言事件,输出包含单词级时间戳和说话者标注的结构化 JSON 数据。 Scribe 提供多项核心功能,包括多语言支持、深度学习与音频理解能力、说话者区分与事件标注、逐字时间戳、结构化输出以及高精度转录。其转录结果在多个行业基准测试中优于谷歌 Gemini 2.0 Flash、OpenAI Whisper v3 和 Deepgram Nova-3 等主流模型。 用户可通过 ElevenLabs 官方平台注册并上传文件进行转录,也可通过 API 集成方式将 Scribe 嵌入到各类应用中。Scribe 广泛应用于会议记录、字幕生成、内容创作、客户服务和教育等多个领域,为用户提供高效、精准的语音转文本解决方案。
发表评论 取消回复