Hibiki是由Kyutai Labs开发的一款开源语音翻译解码器模型,能够实时将一种语言的语音转换为另一种语言的语音或文本。该模型基于多流语言模型架构,同步处理源语音和目标语音,联合生成文本和音频标记,从而实现语音到语音(S2ST)和语音到文本(S2TT)的翻译功能。Hibiki采用弱监督学习方法,通过文本翻译系统的困惑度识别最佳单词级延迟,并生成对齐的合成数据进行训练。在法语到英语的翻译任务中,Hibiki表现出高翻译质量、说话者保真度和自然度,支持批量处理和设备端实时部署,具备广泛的应用潜力。 - 实时语音到语音翻译(S2ST):支持跨语言语音实时转换,保留原始音色与语调。 - 实时语音到文本翻译(S2TT):将语音内容实时转为文本,便于记录与查阅。 - 低延迟翻译:通过逐块生成方式降低延迟,接近人类口译水平。 - 高保真输出:生成语音自然流畅,与原声高度相似。 - 灵活部署:支持批量处理和实时设备端应用,适应多种使用场景。 - 多流语言模型架构:同步处理源语音与目标语音,联合建模文本与音频标记。 - 因果音频编解码器:使用预训练模型将语音编码为离散标记,支持流式处理。 - 弱监督学习:基于文本翻译系统生成对齐数据,提升翻译准确性。 - 上下文对齐机制:确保目标语音与源语音内容同步,提高翻译一致性。 - 说话者相似性控制:通过分类标签优化语音保真度,增强用户体验。 - 高效推理过程:结合温度采样技术,实现快速响应与大规模部署。 - GitHub仓库:https://github.com/kyutai-labs/hibiki - HuggingFace模型库:https://huggingface.co/collections/kyutai/hibiki - arXiv技术论文:https://arxiv.org/pdf/2502.03382 - 国际会议:实现实时跨语言沟通,提升参会体验。 - 在线教育:帮助学生理解多语言授课内容。 - 旅游出行:促进语言障碍下的交流与互动。 - 新闻采访:提高信息采集与报道效率。 - 客户服务:支持多语言客服,提升客户满意度。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部