OpenAI 只有15秒样本推出语音引擎即能重建任何人的声响

2024-11-15

OpenAI 又带来了一项超酷的停顿！周五推出了一项名为 Voice Engine 的语音引擎，仅凭一段15秒的声响样本，便能够精准模拟出那团体的声响。

Voice Engine 的共同之处在于，它能经过便捷的文本输入和短短音频样本，发明出十分凑近原始谈话者的人造声响。这象征着无论你让它读什么言语的文字，都能以那团体独有的声响格调朗诵，效果既真切又充溢感情。

总而言之，OpenAI 经过这项新技术展现了人工智能复制人声的惊人或许性，接上去让咱们一同看下吧～

Voice Engine 两年前已开局研发

理想上，OpenAI 早在 2022 年末便启动了 Voice Engine 的开发，并已应用此技术为其文本到语音 API、ChatGPT Voice 以及朗诵配置装配了预设声响。

在技术成功开发后，OpenAI 并未立刻向市场片面推行，而是选用与一小群早期测试者“小心翼翼”地协作，共同探求其运行或许性和潜在危险。

在与 TechCrunch 的采访中，OpenAI 产品团队成员 Jeff Harris 泄漏，该模型是在“已获授权和地下可用数据的联合”上启动训练的。该技术将仅限于大概 10 名开发者经常使用，获准访问的组织包含教育技术企业 Age of Learning、视觉叙事平台 HeyGen、前沿肥壮软件制造商 Dimagi、AI 通讯运行开发者 Livox 以及医疗肥壮系统 Lifespan。

OpenAI在官方展现出了一些曾经开局运行的例子：

1. 生成更人造、富裕情感的声响

经过人造、富裕情感的声响，比预设的声响更能代表更宽泛的谈话者，为非读者和儿童提供阅读协助，努力于儿童学业的教育技术公司Age of Learning经常使用这其生成预先编写好的配音内容。此外，语音引擎和GPT-4创立实时、共性化的照应来与在校生互动。

原预设录音：

生成的人造语音：

2. 翻译视频和播客等外容

为了让创作者和企业以其独有的声响接触到环球更多的听众，HeyGen，— 一家专一于AI视觉叙事的平台，成为了此技术的早期驳回者。他们为从产品营销到开售展现的宽泛内容制造定制化、仿真的头像。借助Voice Engine技术将视频内容翻译成多种言语，以此拓宽其环球受众的范围。这项技术的一大特征是在翻译环节中能够保管演讲者原有的口音特征，例如，经常使用一位法国演讲者的声响样本启动英语翻译时，生成的语音将保管有法国口音，为翻译削减了更多的实在感和共性化色调。

原录音：

翻译的语音：

3. 改善偏远地域的基本服务

OpenAI 强调自身的存在是宿愿为环球社区带来福祉，因此正在和外地合力为社区卫生上班提供各类基础服务，例如向哺乳期母亲提供专业咨询。为了促成这些上班者技艺的优化，驳回Voice Engine擎和GPT-4技术，以上班者的母语提供互动式反应。

原录音：

翻译的语音：

4.支持言语阻碍人士提供协助

为非言语人群提供支持，例如开发针对言语阻碍者的治疗运行，以及为有不凡学习需求的人提供教育辅佐。Livox是一款驳回人工智能的代替及增强通讯(AAC)运行，能够赋能残障人士启动沟通。经过应用先进的语音引擎，Livox能为用户提供唯一无二、非机械化的声响，涵盖多种言语。这使得用户能够选用最能表现其共性的声响，并且关于那些经常使用多种言语的用户，坚持在各种言语中声响的分歧性。

原录音：

生成的语音：

5. 协助患者复原他们的声响

针对那些遭到突发性或退行性言语阻碍影响的人群，OpenAI与Norman Prince 神经迷信钻研所协作，正在钻研AI在临床设置中的运行。他们最近启动了一个试点名目，为那些因癌症或神经病理学识题而遭受言语阻碍的患者提供Voice Engine服务。这项技术的一个清楚好处是它仅需很短的音频样本即可运作。因此，医生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以经常使用一位年轻患者之前为学校名目录制的视频音频，成功复原了她因血管性脑瘤而失去的流利言语才干。

原录音：

生成的语音：

潜在危险与安保措施

想一想，假设有人只用几段录音就能复刻出你的声响，这听起来是不是只管酷炫，但也挺耸人听闻？

技术在提高，咱们能做的事件越来越神奇，比如让失声的人再次“谈话”，或许让你听到一个从未学过外语的好友用流利的法语或日语跟你聊天。

然而伴之而来的，也会有人用你的声响去骗你家人的钱，或许在网上放一个假的你谈话的录音，甚至随着这些动物特征能用AI生成，先是人脸、声响那这样高速开展的双刃剑技术进入咱们的环球，会不会带来失控呢？

而且Voice Engine的出世刚好撞到枪口！

上个月，联邦通讯委员会（FCC）因收到经常使用乔·拜登总统 AI 克隆声响的骚扰电话而制止经常使用 AI 生成的语音电话，全国拉响了警铃。

“这是一个敏感的畛域，解决切当极为关键，”OpenAI 产品经理 Jeff Harris 在采访中指出，公司外部也抵赖，生成人类声响的技术确实携带着重大的危险。

Open AI 正在探求为分解声响减少水印或其余控制措施的方法，以防止技术被用来模拟政治人物或其余群众人物的声响。

OpenAI 宿愿引发无关分解声响担任任经常使用的对话，以及社会如何顺应这些新兴技艺的探讨。依据这些对话和小规模测试的结果，OpenAI 将做出更理智的决策，以确定能否以及如何在更大范围外部署这项技术。

而现阶段，因为技术目前只面向协作同伴的经常使用，OpenAI需要经常使用者们遵照一项经常使用政策，该政策制止未经赞同或非法权益混充他人或组织，需要协作同伴从原始谈话者处取得明白和知情的赞同，并制止开发者构建准许团体用户创立自己声响的工具。

小结

在这个令人兴奋的科技停顿面前，咱们不由要问自己：

咱们真的预备好迎接这样的未来了吗？

OpenAI 的 Voice Engine人工智能拟人的有限或许，让咱们得以用新的形式“听见”环球。

然而，正如咱们所见，这项技术也带来了不小的应战和品德考验。随着这样的技术越来越成熟，咱们必定愈加仔细地思考如何平衡翻新和安保。咱们该如何确保技术的开展能够促成人类福祉，而不是成为操控和欺诈的工具？

原文链接：

<<学会辨别大模型

AniPortrait开源上线！音频驱动真切人像动画分解！人人都是歌手！>>

OpenAI 只有15秒样本 推出语音引擎 即能重建任何人的声响

Voice Engine 两年前已开局研发

1. 生成更人造、富裕情感的声响

2. 翻译视频和播客等外容

3. 改善偏远地域的基本服务

4.支持言语阻碍人士提供协助

5. 协助患者复原他们的声响

潜在危险与安保措施

小结

您可能还会对下面的文章感兴趣：

随便看看

OpenAI 只有15秒样本推出语音引擎即能重建任何人的声响