Hibiki

简介：Hibiki是一款由Kyutai Labs开发的开源语音翻译解码器，支持实时语音到语音（S2ST）和语音到文本（S2TT）的翻译。其基于多流语言模型架构，结合弱监督学习和上下文对齐技术，实现低延迟、高保真度的翻译效果。适用于国际会议、在线教育、旅游、新闻采访及客户服务等场景，具备良好的实用性和可扩展性。

AI小编 703 阅读 0 评论 31 点赞

项目地址

Hibiki是由Kyutai Labs开发的一款开源语音翻译解码器模型，能够实时将一种语言的语音转换为另一种语言的语音或文本。该模型基于多流语言模型架构，同步处理源语音和目标语音，联合生成文本和音频标记，从而实现语音到语音（S2ST）和语音到文本（S2TT）的翻译功能。Hibiki采用弱监督学习方法，通过文本翻译系统的困惑度识别最佳单词级延迟，并生成对齐的合成数据进行训练。在法语到英语的翻译任务中，Hibiki表现出高翻译质量、说话者保真度和自然度，支持批量处理和设备端实时部署，具备广泛的应用潜力。 - 实时语音到语音翻译（S2ST）：支持跨语言语音实时转换，保留原始音色与语调。 - 实时语音到文本翻译（S2TT）：将语音内容实时转为文本，便于记录与查阅。 - 低延迟翻译：通过逐块生成方式降低延迟，接近人类口译水平。 - 高保真输出：生成语音自然流畅，与原声高度相似。 - 灵活部署：支持批量处理和实时设备端应用，适应多种使用场景。 - 多流语言模型架构：同步处理源语音与目标语音，联合建模文本与音频标记。 - 因果音频编解码器：使用预训练模型将语音编码为离散标记，支持流式处理。 - 弱监督学习：基于文本翻译系统生成对齐数据，提升翻译准确性。 - 上下文对齐机制：确保目标语音与源语音内容同步，提高翻译一致性。 - 说话者相似性控制：通过分类标签优化语音保真度，增强用户体验。 - 高效推理过程：结合温度采样技术，实现快速响应与大规模部署。 - GitHub仓库：https://github.com/kyutai-labs/hibiki - HuggingFace模型库：https://huggingface.co/collections/kyutai/hibiki - arXiv技术论文：https://arxiv.org/pdf/2502.03382 - 国际会议：实现实时跨语言沟通，提升参会体验。 - 在线教育：帮助学生理解多语言授课内容。 - 旅游出行：促进语言障碍下的交流与互动。 - 新闻采访：提高信息采集与报道效率。 - 客户服务：支持多语言客服，提升客户满意度。

本文分类：AI项目与工具
本文标签：AI语音翻译 S2ST S2TT 多流语言模型语音到文本低延迟翻译高保真语音开源工具实时翻译语言处理
浏览次数：703 次浏览
发布日期：2025-06-12 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/9030.html

评论列表共有 0 条评论

暂无评论

Hibiki

评论列表 共有 0 条评论

发表评论 取消回复

评论列表共有 0 条评论

发表评论取消回复