服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

只需3秒钟音频,微软的新AI即可克隆出你的声音

日期: 来源:36氪收集编辑:36氪

编者按:人工智能最近很火,不过火的主要是图像生成和聊天工具。人工智能的近期应用之一语音却一直沉寂。但是,微软最近推出了一个新的 AI,VALL-E,据说它只需要你三秒钟的音频样本即可模仿出你的口音。是不是有点震撼?文章来自编译。

VALL-E 来了

微软表示,只需提供三秒钟的音频片段,其新的文本转语音 AI 即可克隆你的声音和语气等。这个 AI 的名字叫做 VALL-E。对此我们的心情很复杂。

这个系统背后的底层技术,微软在一篇新论文中称之为“神经编解码器语言模型”。这个技术复杂,但实际上,这套系统的使用似乎非常简单:只需插入音频样本,然后再插入一些文本,接着就能得到真实的语音。

当然,文本转语音的已经有很多应用了。比方说,大多数新闻网站都提供了机器驱动的听写服务,而像 Siri 和 Alexa 这样的语音助手也已非常受欢迎。

不过,大多数现有的语音生成程序都需要大量输入。那些应用还没有完全弄清楚如何让 AI 的声音听起来特别像人,这主要是因为情绪基调以及微小的语型变化是很难表达出来的。

如果微软的系统确实能够在几乎不需要输入端的情况下模仿人的口吻的话,那可就不得了了。

喜忧参半

根据开发者的说法,VALL-E 有许多应用,包括“零样本的 TTS、语音编辑以及内容创建”,并补充说,如果 OpenAI 的 GPT-3 语言建模系统(微软给这项技术背后的开发者 OpenAI 进行了大量投资以及投入了大量资源,并且已经在开发多款产品)可以与这款新的语音生成器相结合起来的话,会是一种特别有用的技术,可以用来作为创作内容的一种手段。

如果你喜欢后者这种可能性的话,那么微软确实有它的道理。从理论上来讲,通过将 VALL-E 与 GPT-3 这两项强大的 AI 驱动技术结合到一起,你很快就能将大量听起来真实可信的内容拼凑在一起。

但是,当然,一些道德上棘手的假设这时候也会冒出来。

问题之一显然是虚假的、带误导性的声音——毕竟,如果只需要三秒钟的音频即可模仿的话,理论上你可以利用从名人采访到真人 Instagram 故事的任何东西来冒充某人。

话虽如此,微软还是很谨慎地解决了这一问题,并解释说,由于存在“滥用模型的潜在风险”,自己在约束它的使用(至少目前是这样)——微软并没有开源代码。他们还声称自己正在努力整合某种系统,以检测音频是否是用 VALL-E 创建的,但也许他们应该问问他们在 OpenAI 的朋友,做到这一点究竟有多容易。

译者:boxi。


相关阅读

  • ChatGPT让投资者垂涎三尺,但它真能赚大钱吗?

  • 编者按:生成式人工智能 ChatGPT 正处于炒作风暴的核心,微软也准备向 OpenAI 投资 100 亿美元。很多科技人士都认为,对人工智能的期待是 2023 年的重大看点之一。但该技术仍有很
  • 微软vs谷歌:语言模型会不会压倒搜索引擎?

  • 编者按:ChatGPT 无疑是人工智能领域近期最闪耀的一颗星。在背后投入重注与资源的微软已经开始计划用它来改进自家产品。甚至有小道消息称微软打算将 ChatGPT 嵌入到搜索引擎
  • 与君热聊丨不能让涉毒艺人“狂飙”

  • 涉毒艺人能不能复出拍戏?天下事,身边事,大家一起聊热点。大家好,欢迎收看本期《与君热聊》。近日,有网友爆料,在热播剧《狂飙》中饰演毒贩“钟阿四”的演员含笑,在现实生活中曾涉毒
  • 微软收购动视暴雪这事 还剩最后一关

  • 自从微软宣布690亿美元收购动视暴雪之后,这笔游戏界最大的交易案就引发了不少的讨论。面对这场收购,不少业内公司也发出了明确的反对声音。而在昨天的一次闭门听证会之后,局面
  • 微软:PS占游戏机市场70%的份额 Xox仅30%

  • 微软收购动视暴雪仍然在推进过程中,近日,有微软提交的报告表明,索尼PlayStation在全球游戏机市场上占有70%的份额,而Xbox只有30%。“考虑一下欧洲的市场,这是一个索尼拥有80%份额
  • 听音识人!市北区引进AI声纹识别新锐企业

  • 继“刷脸”“刷指纹”之后,声纹识别开始进入人们的生活。声纹识别又称为“说话人识别”,可根据声纹特征识别某段语音所对应的说话人,实现“未见其人,先辨其声”。如今,这一技术正

热门文章

  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 只需3秒钟音频,微软的新AI即可克隆出你的声音

  • 编者按:人工智能最近很火,不过火的主要是图像生成和聊天工具。人工智能的近期应用之一语音却一直沉寂。但是,微软最近推出了一个新的 AI,VALL-E,据说它只需要你三秒钟的音频样本
  • 关于“学习”的7本好书

  • 编者按:人类不仅渴求了解物质世界,也渴求了解思维世界。人类是如何“学习”的?思维是如何工作的?问题是如何解决的?我们一直想探索这些问题。虽然目前还没有明确的答案,但一些前沿