服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

把数字人变得更有呼吸感,这家张江公司7年做了什么?

日期: 来源:张江头条收集编辑:张江头条
今年初以来,Chat GPT在国内刮起一股大语言模型的旋风,构建于大语言模型之上的产品应用成为行业热点,AI大模型加数字人便是一大热门方向。


叠境数字科技(上海)有限公司,上海科技大学孵化的第一家企业,早在2018年就打算用AIGC和光场采集技术去驱动数字人,让数字人变得更加真实,更加“能说会道”。


近日,张通社来到位于张江绿地MTOWN的叠境数字,请数字人业务总经理李彦,谈一谈叠境数字的数字人产品以及她对技术与赛道的看法。

以下是采访实录,对内容略有删减。


01

AI让数字人能“聊天”


张通社:叠境数字目前有两大业务板块,其一是城市级数字孪生,其二是数字人。两者似乎有着挺大的差异。从公司定位看,叠境数字为什么要发展这两块业务?


叠境数字(李彦):叠境数字是上海科技大学孵化的第一家企业,公司愿景是“创造每个人都可以拥有的元宇宙”。我们希望将上科大的科研成果进行转化,开发出相应的产品来。


虽然这两块业务的着力方向不同,数字孪生的重点在于大规模城市的数字底座快速创建,数字人的重点在于形象的生动逼真,交互自然,但是两者依赖着相同的底层技术栈:他们都是以叠境数字的人工智能与光场采集作为底层技术栈。数字孪生业务就用到了我们在人工智能技术上的全部技术积累,着力在大尺度静态场域;数字人业务则用到了光场采集技术和智能视觉技术(人工智能的一个分支),着力点在塑造数字人超写实的外形和拥有通用性的沟通理解能力。


我们认为数字人不应该只有一个好看的皮囊,他/她应该能和人对话,变成更加智能的数字人。目前,叠境数字拥有一百多项自主研发的人工智能及光场视觉知识产权,这构建了我们在数字人业务上的专业技术壁垒,让我们有足够的技术实力去发展数字人业务。


张通社:叠境数字成立于2016年,从2018年开始,叠境数字就开展了数字人业务,公司的数字人业务的发展经历了什么过程?


叠境数字(李彦):叠境数字一直坚持用算法驱动数字人,目前数字人业务经历了三个阶段的发展。在第一阶段,我们运用了计算机图形学的技术能力,为一些知名艺人构建了数字分身,这些数字分身是基于视频形式而呈现的,会被投放到歌星的演唱会现场。


在第二阶段,我们开始和视觉创意顶流的艺术家合作,共同构建原创的数字人形象。这些数字人主打形象美观和逼真,皮肤细节要做到十分清晰。这些数字人形象曾和不少知名一线消费品牌方达成合作,成为它们的品牌代言人。不过,这属于客户定制款,每个数字人都有自己的脚本,制作成本相对较高。


在第三阶段,我们看到了Transformer神经网络模型,高性能的算力和海量的数据带来了生成式AI浪潮,并认为生成式AI与数字人结合将是一个很好的机会。有了AIGC,数字人不光是一个人形,它可以和人类进行交流,应用场景变得更多了。这是我们当下数字人业务的着力方向。


02

AI数字人是如何炼成的?


张通社:一位AI数字人,它的背后具体会有哪些技术驱动的?


叠境数字(李彦):首先,我们认为一位AI数字人要用到计算机图形学技术,用于高效地生成美观逼真的人物形象。


其次,他/她的交互部分涉及大语言模型和语音识别生成技术。大语言模型可以让数字人自然地回复人类的提问,语音识别技术可以将人类语音转化为计算机可解读的文本。具体而言,人们说的话,通过语音识别技术,输入进大模型中去,从而生成对应的对话语句,最后通过语音生成技术,让数字人讲出来。


除了让数字人说话互动的部分,我们还运用光场采集技术与深度神经网络,让数字人的说话方式与人物形态更加自然和真实。按照行业内的说法,就是把数字人变得更有呼吸感。我们会用深度相机捕捉上百个人类真实的说话声音、口型以及动作,并生成对应的3D模型,输入深度神经网络之中,让AI学习人类自然的说话方式。通过这样的AI学习,数字人说话的语音语调和动作神态就会变得更加真实自然。

光场采集现场设备


张通社:目前,制作一位AI数字人遇到的最大技术挑战是什么?


叠境数字(李彦):现在最大的技术难点在于数字人说话与口型对应起来。如果一位数字人所说的话,与他/她的嘴型无法一一对应,就会显得不真实。


为了让数字人的声音与口型对应起来,我们运用深度相机去捕捉数百人的说话口型,包括普通人和专业播音员,并把这些关于口型的3D数据输入AI模型。从目前进展看,我们能够做到中文语音和口型贴合自然。比如,当发出拼音里“o”的音时,人类会有轻微噘嘴的动作,而我们的数字人也会显示与人类一样的嘟嘴口型。


我们还准备进一步改进这项技术,让他/她不仅能捕捉说话人的口型,而且还能捕捉人的面部上百块肌肉变化,这就能让数字人呈现更自然的说话神态,精度可达毫米级别。


03

数字人的应用场景被AI拓宽


张通社:AI数字人的应用场景是什么样的?


叠境数字(李彦):目前,我们在新闻媒体与地产园区都有落地的项目。这些数字人可为我们客户提供“提效”的价值。


例如,我们已与第一财经达成合作,为他们制作了新闻主播数字人伊可。以往新闻主播的工作往往需要一个团队的支持,涉及到摄影师、化妆师、导播等人员。

数字人伊可亮相

对于数字人伊可,她的声纹、口型和动作均基于深度神经网络生成。同时我们根据第一财经主播的外形,精心设计了符合主播风格的数字人形象。只需要一份文字稿件,不需要其他人员参与,数字人伊可就能完成实时直播。


除此之外,我们的数字人还落地于园区运营企业。这些数字人可以实现员工入园的门禁打卡,访客身份识别和接待、预定会议室等功能。


张通社:据说叠境数字正在开发手语大模型,这是一款怎么样的产品,请介绍一下这款产品以及开发进度?


叠境数字(李彦):这是一款面向聋哑人的AI大模型产品。一般而言,聋哑人通常使用手势和口型进行沟通,那么通过这款产品的协助,聋哑人能和正常人进行无障碍沟通。


为了更好得贴合聋哑人真实的交流情况,我们分别对通用手语和上海地区自然手语,采集了2000至3000个常用手语字的数据。


为了力求真实,我们坚持收集关于手语的多种多样的高质量数据内容。


首先,我们在光场采集设施中获取大量关于口型和手势的样本,并且样本年龄分布大,包括小孩和老人多层次年龄段。其次,我们还进入社区服务中心和医院,用相机记录聋哑人在真实情形下的手势和口型状态。

采集手语数据

手语大模型的数字人


仅仅记录常用的手语字还不够,我们还记录下聋哑人在真实语境中,表达一段完整意思的影像。于是,我们团队分别在几十个具体的交流场景中,用深度相机记录下聋哑人如何表达完整的一句话。


通过这种方式,可供AI学习的数据不再是一个个间断的字,而是一句句连续的话,资料更贴合真实的交流状态。通过这些高质量数据的训练,手语大模型的生成手语内容会更加真实自然。


对于工作进展,我们已经基本完成了数据采集,预计今年10月完成手语大模型的第一版本,推广至城区的几个社区服务中心。明年6月,手语大模型会推广至全上海市聋哑人办事的窗口单位。


04

数字人的未来发展方向


张通社:当下的数字人赛道显得格外热闹,一些属于围绕IP重运营的虚拟偶像,一些是有着中之人的虚拟主播,还有用AI驱动的服务型数字人。您怎么看待未来数字人赛道发展?


叠境数字(李彦):我认为未来各种各样的数字人一定是百花齐放的,不同场景不同需求会需要不同的数字人。未来的数字人不会取代人,但是很有可能数量会超过人。随着技术不断进步,数字人的制作成本会不断降低,功能会更加强大,它们会变得更多,像NPC一样生活在我们周围。


从叠境数字着力发展的服务型数字人看,我觉得这种数字人能体现出一种服务平权。原来专人提供的VIP服务,现在只需一位数字人就能办到,一位数字人可让成千上万的人享受VIP服务。


从不同服务对象看,To B场景中的数字人能为企业提高效率,原本需要一群人去做的事情,现在一个数字人就能完成。To C场景中的数字人可以提供陪伴价值,比如陪着说话,讲故事。对于一些特殊群体,这些数字人可为他们获取原本难以获取的信息,比如为老人阐述养老金等扶助政策。


张通社:数字人技术演进到现在,仍有不少人不认可这种产品,他们觉得数字人仍然不够真实,您怎么看待这个现象?


叠境数字(李彦):我相信,给技术一些时间,数字人技术一定会不断地自我迭代。只要不断用它,它一定会越来越好。


当下数字人之所以不够真实,因为还有技术瓶颈待突破。之前,一位客户抱怨数字人就是一个假模特,买回来以后就束之高阁,没有用。等到今年生成式AI爆发后,这位客户又找回来了,他觉得数字人可以和人交互了,变得更有用了。


又比如,以往的数字人企业需要消耗大量的GPU资源去渲染数字人的精美外形。不过,随着技术不断突破,他们发现自己对GPU的依赖正在不断下降,并且性价比高的GPU变得越来越多,制作数字人成本将会不断下降。


所以,我觉得技术发展是一个螺旋上升的过程。过几年后,数字人的技术会更上一个台阶,更加具有真人感,会有更多人愿意与数字人交互起来。


相关阅读

  • 一家人误食毒蘑菇!南华医院成功救治

  • 近日,南华大学附属南华医院动物致伤与中毒救治中心成功救治了食用自行采摘的“白色蘑菇”后中毒的一家三口,其中包括一年龄81岁的高龄老人。7月31日,南华医院动物致伤与中毒救
  • 新骗局来了,诈骗成功率接近100%,请大家重视起来

  • 【阅读此文之前,麻烦您点击下“关注”,方便与您讨论分享,也能及时观看下一篇精彩文章。非常感谢您的关注!】在信息技术飞速发展的今天,许多诈骗分子利用各种技术进行诈骗,并且诈骗
  • 山东启动数字经济“百城牵手万项”活动

  • 山东省数字经济“百城牵手万项”活动日前在莒县启动。记者从省工信厅了解到,利用3年左右时间,山东将通过供需对接、滚动入库、打造标杆等形式推介重点项目,推动万余个数字经济
  • 2022年福建数字经济规模达2.6万亿元

  • 4日,省政府新闻办公室召开新闻发布会,介绍了《数字福建发展报告(2022年)》的相关内容。记者从会上获悉,《报告》对各地数字化发展水平进行评估。评估结果表明,近年来,数字福建建设
  • 未来科学城集中发布2000余项技术创新成果

  •   8月4日,2023未来科学城技术成果推介大会暨首届项目路演资本对接会召开。大会发布了《2023北京未来科学城技术创新成果集》,包括低碳环保、清洁能源、智能电网、核能核电、
  • 武汉科技馆明起有这些变化

  • 尊敬的观众朋友:为更好地服务公众,助力全民科学素质提升,武汉科学技术馆自2023年8月6日至8月31日每天入馆参观公众调整到8000人,且每周增加1天对外开放时间,即周二至周日对外开放
  • 举办商业AI高峰论坛

  • 一年一度的人工智能领域顶级峰会——世界人工智能大会(WAIC)又在流火的7月盛大召开。2023WAIC商业AI高峰论坛也如约而至,再次与您相聚于申城。7月7日,2023WAIC商业AI高峰论坛在

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 无上荣光——司机谈名人堂演讲

  • 无上荣光——司机谈名人堂演讲“这是无上荣光。”德克.诺维茨基在名人堂入选典礼临近时激动地说。在 12 日就将入选名人堂之际,这位独行侠队魂向我们分享了他的感受(及他的嘉
  • 这样度夏,很武汉

  • 站在东湖岸边,远眺湖面上涌起的一层层细浪,躁动的心也变得清凉起来。迎面而来的风将岸边的旗帜吹得猎猎作响,随风而来的一丝丝湿润,仿佛化解了夏日的暑气。 晴日,有风,正是扬帆启