Voice Engine简介
Voice Engine是OpenAI推出的一种先进的AI语音合成和声音克隆技术。它能通过15秒的音频样本和文本输入,生成接近原声的自然语音。该技术自2022年底开发以来,已应用于OpenAI的文本到语音API及ChatGPT的语音功能中。Voice Engine的应用范围广泛,包括为儿童和非读者提供阅读辅助、翻译内容以触及全球听众、支持非言语交流者、帮助恢复患者的声音等。为确保技术的安全使用,OpenAI实施了严格的安全措施,包括防止声音冒充和采用水印追踪。
官方博客介绍:https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices
Voice Engine的应用场景和案例
- 教育与阅读辅助:Voice Engine能够为儿童和非读者提供自然语音,帮助他们更好地理解和接触书面内容。例如,Age of Learning公司利用该技术生成预设脚本的语音内容,并与GPT-4结合,实现个性化互动响应,提升学习体验。
- 内容翻译与全球化:Voice Engine可将视频和播客内容翻译成听众母语,同时保留原始说话者的口音,使创作者和企业能够以更地道和亲切的方式触及全球听众。HeyGen公司使用Voice Engine进行视频翻译,消除语言障碍。
- 改善偏远地区的服务提供:Voice Engine能够通过提供本地语言的服务,改善偏远社区的基本服务,如健康咨询等。Dimagi公司正在开发工具,利用Voice Engine和GPT-4为社区卫生工作者提供互动反馈,提高他们的技能。
- 支持言语残障人士:Voice Engine能够为交流障碍者提供独特且非机械性的声音,使他们能够通过增强和替代通讯设备进行交流。Livox公司利用该技术为用户提供多种语言的自然语音,帮助他们更好地表达自己。
- 恢复患者的声音:Voice Engine可以帮助因疾病或神经问题而失去语言能力的患者恢复或重建自己的声音。Norman Prince Neurosciences Institute正在探索如何使用Voice Engine帮助因肿瘤或神经原因导致语言障碍的个体。
Voice Engine的音频示例
1. 音频翻译
参考英文音频
生成的中文音频
2. 患者声音恢复
患者原声
参考音频
生成音频
Voice Engine的使用情况
Voice Engine目前仍处于小规模预览阶段,尚未广泛发布。OpenAI正通过与少数可信赖的合作伙伴进行私下测试,以更好地了解其潜在用途,并根据测试结果和反馈,决定未来是否更广泛地部署这项技术。
因此,Voice Engine当前未对公众开放。OpenAI采取了谨慎态度,以确保在推广过程中充分考虑潜在的滥用风险,并制定相应的安全措施和使用政策。未来,OpenAI可能会根据测试结果和社会需求,决定是否将Voice Engine提供给更广泛的用户群体。
发表评论 取消回复