服务粉丝

我们一直在努力
当前位置:首页 > 财经 >

能说会唱,AudioGPT惊艳亮相!浙大、北大、CMU等提出全新音频理解与生成系统

日期: 来源:新智元收集编辑:新智元



  新智元报道  

编辑:好困
【新智元导读】近日,来自浙大、北大、CMU和人大的研究人员提出了一种全新的音频理解与生成系统AudioGPT。不仅能够实现跨模态转换,以及音频模态的理解、生成,还能能够解决20+种多语种、多模态的AI音频任务。

最近几个月,ChatGPT、GPT-4横空出世,火爆出圈,大型语言模型 (LLM) 在语言理解、生成、交互和推理方面表现出的非凡能力,引起了学界和业界的极大关注,也让人们看到了LLM在构建通用人工智能 (AGI) 系统方面的潜力。
现有的GPT模型具有极高的语言生成能力,是目前最为先进的自然语言处理模型之一,广泛应用于对话、翻译、代码生成等的自然语言处理领域。
除了书面语言,用户在自然对话中主要使用口语(Spoken Language),而传统大语言模型却无法胜任音频理解与生成任务:
  • GPT模态限制

用户在自然对话中主要使用口语,对口语理解与合成有极大需求,而单模态GPT不能满足对音频(语音、音乐、背景音、3D说话人)模态的理解、生成需求。

  • 音频数据、模型相对少

基础模型(Foundation Model)少或交互性差。相较于文本模态,用于重新训练语音多模态GPT的数据较少。

  • 用户交互性差

用户广泛的使用语音助手如Siri、Alexa基于自然对话高效地完成工作。然而目前GPT之间的交互大多根据键盘输入的文本,交互性差,口语交互更能拉进和用户之间的关系,提升模型易用性。

最近,浙江大学、北京大学、卡内基梅隆大学和中国人民大学的研究人员针对以上难题,提出了全新的音频理解与生成系统AudioGPT。
AudioGPT以ChatGPT充当负责对话与控制的大脑,语音基础模型协同以完成跨模态转换、以及音频(语音、音乐、背景音、3D说话人)模态的理解、生成,能够解决20+种多语种、多模态的AI音频任务。

论文地址:https://arxiv.org/pdf/2304.12995.pdf
Github:https://github.com/AIGC-Audio/AudioGPT
Huggingg Face: https://huggingface.co/spaces/AIGC-Audio/AudioGPT

听觉效果超炫


现在,HuggingGPT增加了Gradio演示:
话不多说,咱们直接看一个AudioGPT对话的例子,包括里面保含了文本、图像和语音三种模态的输入,AudioGPT能理解不同模态的输入,生成结果也能以文本、图像、音频相结合的方式展现给用户。
语音
Q1: Generate a speech with text "here we go".
A1: 
Q2: Transcribe this speech.
A2: Here we go.
Q3: Separate each speech from the speech mixture. 
A3: 
音乐
Q4: Please generate a piece of singing voice. Text sequence is 小酒窝长睫毛AP是你最美的记号. Note sequence is C#4/Db4 | F#4/Gb4 | G#4/Ab4 | A#4/Bb4 F#4/Gb4 | F#4/Gb4 C#4/Db4 | C#4/Db4 | rest | C#4/Db4 | A#4/Bb4 | G#4/Ab4 | A#4/Bb4 | G#4/Ab4 | F4 | C#4/Db4. Note duration sequence is 0.407140 | 0.376190 | 0.242180 | 0.509550 0.183420 | 0.315400 0.235020 | 0.361660 | 0.223070 | 0.377270 | 0.340550 | 0.299620 | 0.344510 | 0.283770 | 0.323390 | 0.360340.
A4: 
音效
Q5: Generate an audio of a piano playing.
A5: 
Q6: Give me the description of this audio. 
A6: The audio is recording of a goat bleating nearby several times.
3D说话人
Q7: Generate a talking human portrait video.
A7:
此外,论文中还有一个多轮对话与上下文理解的例子:
AudioGPT语音模型在现有模型中具有不同的优势:
  • 相较于文本GPT:

ChatGPT、GPT4等语言模型侧重于自然语言处理领域,在多模态理解与合成上福利少了一些,AudioGPT则将重点放在了音频多模态的理解与生成。

  • 相较于Siri等检索模型:

与简单检索并以语音回复检索模型相比,AudioGPT强大的生成式对话,使得用户能够更加实时地获取和处理与内容相关的音频。

  • 相较于视觉任务GPT:

图像不存在像音频一样的语种分类,音频中存在不同语种:如中文、英文、法语等,AudioGPT还需要进行语种管理

技术原理


AudioGPT在收到用户请求时使用ChatGPT进行任务分析,根据语音基础模型中可用的功能描述选择模型,用选定的语音基础模型执行用户指令,并根据执行结果汇总响应。借助ChatGPT强大的语言能力和众多的语音基础模型,AudioGPT能够完成几乎所有语音领域的任务。
可以说,AudioGPT为走向语音通用人工智能开辟了一条新的道路。
具体来说,AudioGPT运行过程可以分成4个阶段:模态转化、任务分析、模型分配和回复生成。
截至目前,AudioGPT涵盖了语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕、音频生成、歌声合成等任务。
实验结果证明了AudioGPT在处理多模态信息和复杂AI任务方面的强大能力。
目前多模态的LLM层出不穷,Visual ChatGPT,HuggingGPT等模型吸引了越来越多的关注,然而如何测评多模态LLM模型也成了一大难点。
为了解决这一难点,研究人员为多模态LLM的性能评估设计了测评准则和测评过程。具体来说,AudioGPT提出从三个方面测评多模态LLM:
  • 一致性(Consistency):

度量AudioGPT是否正确的理解用户意图,并为之分配所需的模型

  • 稳定性(Capabilitity):

度量基础的语音模型在其特定任务上的性能表现

  • 鲁棒性(Robustness):

度量AudioGPT是否能正确的处理一些极端的例子

针对一致性,研究人员设计了一套基于人工测评的流程。如下图所示:
针对稳定性,AudioGPT调研了各语音基础模型在单任务领域的性能表现。
针对鲁棒性,研究人员从四个方面进行评估:
  • 多轮对话的稳定性:

多模态LLM应该具备处理多轮对话的能力并且能处理上下文关系
  • 不支持的任务:

目前多模态LLM并非万能的,当收到无法解决的请求时,多模态LLM也应该给予用户反馈
  • 错误处理:

多模态基础模型可能由于不同的原因而失败,例如不支持的参数或不支持的输入格式。在这种情况下,多模态 LLM需要向用户提供合理的反馈,以解释遇到的问题并提出潜在的解决方案
  • 上下文中断:

多模态LLM被期望处理不在逻辑序列中的查询。例如,用户可能会在查询序列中提交随机查询,但会继续执行具有更多任务的先前查询

网友热评

最后,项目刚刚开源,可以在Github和Huggingface体验。对于这个新工具的诞生,网友们很是兴奋,有人表示:
AudioGPT是大语言模型在音频处理领域的福利。
还有网友认为,五音不全的也可以借助AudioGPT唱歌了:
有网友称,期待在个人PC上也能用到这样的模型,将能够创造出丰富多样的音视频内容。
参考资料:
https://arxiv.org/abs/2304.12995




相关阅读

  • Cancer Cell评论 | 衰老和癌症建模的机遇和挑战

  • 撰文 | 亦衰老是癌症主要的风险因素,成年人的癌症涉及衰老的组织和器官。大多数癌症患者年龄在65岁以上,这个群体中癌症的新发率为60%,死亡率达70%。然而相关临床前研究却大多
  • 【干货】电池阻抗在电池管理系统中扮演的角色

  • 点击蓝字关注旺材锂电(ㅿ点击图片报名参加)关注公众号,点击公众号主页右上角“ · · · ”,设置星标,实时关注锂电最新资讯来源:eTran交通电动化为了缓解能源和环境面临的危机,在
  • 国信研究 | 研究周刊(04.24-04.30)

  • No.1策略宏观对冲基金发展经历了多次波动,近年来海外宏观对冲基金复兴趋势明显。19世纪70 年代,新一代海外宏观对冲基金起源于股票交易和商品交易两个方向:由于布雷顿森林体系
  • 陆奇:大模型时代,怎样思考今天的机会点?

  • 今天与你分享奇绩创坛创始人陆奇4月下旬的一场演讲。陆奇可能是同时对自然语言、微软、OpenAI了解最深入的华人。从雅虎,到微软,再到百度,他从事了20多年的自然语言。2008年,在
  • 陆奇为什么不创业?

  • 作者:尹磊来源:字母榜(ID:wujicaijing)憋了几个月后,陆奇终于在几天前宣布了他的“大模型世界观”。圈内其实早有传闻陆奇在研究大模型,在后来的演讲中,他也承认自己几乎被大模型的

热门文章

  • “复活”半年后 京东拍拍二手杀入公益事业

  • 京东拍拍二手“复活”半年后,杀入公益事业,试图让企业捐的赠品、家庭闲置品变成实实在在的“爱心”。 把“闲置品”变爱心 6月12日,“益心一益·守护梦想每一步”2018年四
  • 美国对华2000亿关税清单,到底影响有多大?

  • 1 今天A股大跌,上证最大跌幅超过2%。直接导火索是美国证实计划对华2000亿美元产品加征25%关税。 听起来,2000亿美元数目巨大,我们来算笔账。 2000亿美元,按现在人民币汇率

最新文章

  • 月入两万,还要逃离一线城市?

  • 看到一个WB上一个博主写的的内心独白,说的是一个上海的年轻人,大家看下:「本人29岁,211硕,已经落户上海月薪2万3,年薪35万,环沪地区(苏州)有套房子,有辆宝马车,有上海首付能力,我这个经
  • GDP二十强公布 谁在跃升 谁在滑落?

  • 作者:刘晓博来源:刘晓博说财经已获得转载授权 五一“小长假”的第二天(4月30日),苏州公布了一季度GDP。至此,中国内地经济总量最大的13个城市全部公布了2023年一季度经济数据。20
  • 2023/05/01(NO.1333)

  • 每天看穿搭填鸭式变帅123...精选穿搭,每天不止3套扫码秒解锁▼每日力荐好物PCLP 标语印花T恤 力荐理由 快来看看这款撞色发泡印花的T恤,穿起来真的超显气质!255克重的纯棉面料,
  • 祝贺!19岁浙江小将潘展乐破亚洲纪录

  • 5月1日晚,在杭州进行的2023年全国游泳冠军赛男子100米自由泳决赛中浙江队选手潘展乐以47秒22夺得冠军成绩超过该项目亚洲纪录(47秒56)此前,该项目的全国纪录是由宁泽涛保持的47