OpenAI首次展示音频模型Voice Engine，15秒即可复制原音，生成的声音太逼真了！

更新时间：2025-02-24 16:02 zixunge 发布时间：11个月前 4 0

　　AIGC开放社区

　　用户只需要提供15秒左右的参考声音，通过Voice Engine就能生成几乎和原音一模一样的全新音频，在清晰度、语音连贯、音色、自然度等方面比市面上多数产品都强很多。

　　3月30日凌晨，OpenAI在官网首次展示了全新自定义音频模型“Voice Engine”。

　　除了能合成音频之外，OpenAI还展示了Voice Engine很多其他际商业用途，例如，一位失去声音表达能力的女孩，在Voice Engine帮助下能像以前一样正常发音说话。

　　Voice Engine功能展示

　　OpenAI并非展示了一些简单的demo，而是一些实际场景化用例，这也就是说Voice Engine的技术已经非常成熟。

　　Age of Learning 是一家儿童教育公司，他们一直在使用Voice Engine生成各种有声读物。同时还通过与GPT-4的相结合使用，创建实时、个性化的回答与学生互动。

　　例如，使用一段15秒的参考音频。

　　age-of-learning-reference

　　00：00 / 00：15

　　就可以生成几乎一模一样的语音。

　　animals

　　00：00 / 00：16

　　除了语音合成之外，Voice Engine还能提供视频翻译功能，可以将一种视频语音无差别的翻译成多国语言。

　　HeyGen是一家AI视频合成平台，主要帮助企业开发商品展示的“数字人”。他们通过使用Voice Engine进行视频翻译，扩展至多国语言来扩大全球覆盖受众。

　　输入一段原参考语音

　　heygenenglish

　　00：00 / 00：16

　　就能将其转化成中文语音

　　heygen-mandarin

　　00：00 / 00：24

　　或者日文语音

　　heygen-japanese

　　00：00 / 00：22

　　帮助声音受损的人恢复声音：诺曼-普林斯生命科学研究所正在测试一项实验，正通过Voice Engine帮助那些因肿瘤或神经系统病因，导致语言障碍的患者恢复声音。

　　目前，他们已经帮助一位因血管性脑肿瘤，而失去流利语言表达能力的年轻女患者恢复了声音。

　　下面这段声音是女患者的，她已经无法清楚表达自己说的话。

　　lifespan-current

　　00：00 / 00：30

　　通过提供她之前正常的语音，用Voice Engine进行转译。

　　lifespan-reference

　　00：00 / 00：15

　　现在这位女患者可以正常与其他人交流了。

　　lifespan-talking

　　00：00 / 00：16

　　OpenAI表示，其实他们在2022年底便开发了Voice Engine，并将其用于支持文本到语音 API 中的预设语音以及 ChatGPT 的语音和朗读功能。

　　但出于安全考虑一直没有全面公测，目前也只是小范围测试。因为相比文本、视频，音频的造假能力太强了几乎无法分辨出来。

　　此外，OpenAI首席技术官Mira Murati在前不久接受的采访时表示，未来Sora生成的视频会带声音的，很可能为其提供声音的就是Voice Engine。

　　本文作者：AIGC开放社区，来源：AIGC开放社区，原文标题：《OpenAI首次展示音频模型Voice Engine，生成的声音太逼真了！》

　　风险提示及免责条款

　　市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

本文地址： http://www.bkzisnm.cn/post/337268.html

标签：