作者:周培源(南开大学新闻与传播学院讲师、南开大学融媒体研究中心研究员)钟沈军(南开大学新闻与传播学院教授、南开大学战略传播研究中心副主任、元宇宙联合实验室主任)
来源:《青年记者》2023年第2期
2021年8月国家广播电视总局发布《广播电视和网络视听“十四五”科技发展规划》,指出要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平。近两年,新闻传播行业围绕规划要求,加快推进媒体融合背景下的理念升级与技术应用,在新闻生产与传播实务中引入虚拟记者、虚拟主播等虚拟媒体人形态。本文重点论述虚拟媒体人在新闻传播业中的应用,从发展阶段、实践挑战及行业影响等维度展开。
缘起试水(1.0时代):
从无到有、石破天惊
2000年4月19日,英国报业联会新媒体公司(PA New Media)在美国硅谷的科技支援下,历经9个月的研究,耗资1.4亿美元,推出世界上第一位虚拟主持人安娜诺娃(Ananova),她是一位“28岁、绿色头发、大西洋中部口音的媒体人”,为全球网民提供24小时新闻报道,这开启了虚拟媒体人的新纪元。
安娜诺娃虽然只是一个三维动画形象,但其背后有一套高速运转的电脑系统,可根据新闻脚本快速制作新闻作品。她不仅可以高效率整合即时新闻和信息,还可以存储数据、将文本转换为语音,同时生成对应的脸部表情,即时制作视频以配合新闻播报。安娜诺娃“上岗”并获成功后,美国的薇薇安(Vivian)、韩国的露西雅(Lusia)、日本的寺井有纪 (Yuki)等虚拟主持人也纷纷进入大众视野,一时间虚拟主持人成为热门话题,许多媒体人都在讨论,传统主持人是否将要下岗?
我国首位电视虚拟男主持人于2000年10月26日在上海国际电视节上亮相,彼时他的名字叫“比尔·邓”,由七网络亚洲公司和北京迪生计算机图形图像有限公司创造推出。比尔·邓的形象在媒体露面后,很多观众反馈,希望我国的首位虚拟主持人的形象、名字更贴近中国人的特点。后经过网络征集、投票,最终更换了形象并定名为“言东方”。言东方采用当时最先进的传感器技术,使三维的虚拟模型富有和真人一样的动感,同时赋予了虚拟人以丰富的性格。与安娜诺娃不同,言东方需要额外配音才能完成主持。2001年5月13日,言东方与另一位女主持人合作主持的节目《科技周刊》在天津电视台播出,这也是言东方以新形象、新名字首次经大众传媒与观众见面。
第一阶段的虚拟媒体人更关注“形”,言东方的“整容”与“更名”凸显彼时虚拟媒体人被关注的重点。这一阶段的虚拟媒体人普遍存在“成本高昂、效率低下”的问题,这也直接导致虚拟媒体人可持续开发与运营存在问题。尽管言东方及其节目的推出引起国内广泛的关注和讨论,但最终全国仅18家电视台签约买下了言东方主持的《科技周刊》专栏节目,这与其高昂的成本不相匹配,2001年其即宣告结束职业生涯。诞生于2004年的国内第二代虚拟主持人的代表“小龙”也面临同样的问题。小龙制作团队采用CG技术,融合了刘德华、梁朝伟和金城武的外形特征,小龙拥有独立演播室进行主持与播报。但是,其节目生产制作不仅需要形象设计、脚本配音,还需要真人动作捕捉、软件合成音视频、口型匹配、表情管理,各类细节如服饰、灯光、特效等,其难度和投入远超专业真人主持,次年小龙也结束主持生涯。在这一阶段,可以说虚拟主持人迈出了技术驱动新闻传播的一大步,带给了人们无限的想象。可是囿于当时技术与成本的限制,难以高效率可持续运转,此后虚拟主持人行业进入“沉默十年”。
探索酝酿(2.0时代):
神形兼备、虚实共创
打破沉默局面的依然是技术的进步。1956年达特茅斯会议标志着“人工智能”概念的诞生,整整60年后人类才迎来人工智能元年。2016年AlphaGo轻松打败围棋世界冠军李世石,语音识别准确率也超过97%,AI时代已经到来,AI赋能虚拟媒体人已成为新的选项。
率先出道的是全球第一位虚拟主播绊爱(Kizunaai),2016年12月1日绊爱在YouTube中上传了首个自我介绍视频,迄今共有306万订阅者。如果从广义上来看,虚拟主播的兴起历史还可前推:借助语音合成、全息投影等技术诞生于2007年的“初音未来”、以 3D 虚拟形象在 YouTube 中最先活跃起来的虚拟主播 Ami Yamato等,均因抓住了虚拟与现实的关联性,以才艺式虚拟偶像形象收获成功,这也大大激励了各大平台虚拟主播的生产积极性。与第一阶段的虚拟主持人不同,绊爱等虚拟主播并不追求真人形象,而是关注情感、互动、伴随性,前台以二次元形象展示,后台由真人扮演驱动,通过真人穿上动捕设备,在背后控制绊爱的面部动态表情及动作,并由声音演员配音及对口型,从而进行直播或录制视频。[1]虚拟主播绊爱放弃“真人形似”追求“神似”,在AI助力下,形象创制成本与视频制播效率均得到很大提升,虚拟主播也成为此阶段的新宠。
此阶段的虚拟媒体人不仅不再追求外形的“真人化”,也不再满足于新闻稿的播报,而是呈现偶像化、娱乐化、多样化的发展态势,并基于YouTube、哔哩哔哩(B站)等用户生产内容(UGC)平台持续产生影响。聚焦新闻传播领域,虚拟主持人也有新变化,一是寻找新的技术路线解决高成本低效率难题。科大讯飞、百度等均推出了3D虚拟形象生成技术(PTA),该技术可通过单张自拍图,自动生成个性化人脸表情基底,实现人物高效建模,帮助开发者及用户快速、低成本构建相似度高且美观的3D虚拟形象。2018年5月,中央电视台采用此技术路线推出虚拟主持人“康晓辉”,与央视真人记者共同主持节目并现场实时互动。二是强化场景应用,垂直发挥虚拟主持人的特长。2015年春节联欢晚会迎来了史上第一位春晚虚拟主持人“阳阳”,在虚拟演播室的基础上,将节目中的主持人由真人替换为虚拟的角色,通过动作捕捉方式,最终呈现给观众。哑剧演员李奎承担阳阳的动作原型功能,央视少儿节目主持人“金龟子”刘纯燕配音。这一年的春晚虚拟主持人也为后来“虚拟场景 + 真人”和“真实场景 + 虚拟人”的混合形式提供了新的思路。
第二阶段的虚拟媒体人呈现两个特征,一是由“形”向“神”过渡转型,放弃“像人”而追求“人设”,呈现偶像化、多元化特征;二是挖掘新技术路线,降成本提效率,寻找新的可持续发展方案;三是虚实共生,强化背后真人驱动,探索真实与虚拟的结合方式。这一阶段经历时间短,更像是虚拟媒体人解决方案的过渡阶段,是媒体组织机构摸石头过河、不断积累经验,寻找最优解的过程。这一过程也再此证实了技术发展对虚拟媒体人领域的重要性,掀开了AI赋能、AI驱动虚拟媒体人发展的序幕。
全面崛起(3.0时代):
AI驱动、智能垂直
第三阶段真正由AI全程驱动,形象更加逼真、应用场景更加多元的虚拟媒体人出现在2018年世界互联网大会上。这一年,虚拟主持人开始向应用智能化转变,研究者指出,虚拟媒体人已经进入人工智能深度融合的虚拟化、数字化“AI合成主播”阶段。正是前两阶段的摸索,尤其是多项人工智能前沿技术的“加持”,AI合成主播成为现在传媒行业的主流解决方案。
2018年11月7日,新华社联合搜狗在世界互联网大会上发布全球首个AI合成新闻主播“新小浩”,通过提取真人主播新闻播报视频中的声音、唇形、表情动作等特征,运用语音、唇形、表情合成以及深度学习等技术联合建模训练而成。此时的虚拟媒体人不仅神形兼备、语态生动自然,同时还具备数据处理和深度学习能力。此后,中央级媒体纷纷推出主打AI主播,并积极合作、小步快跑、技术驱动、抢占高峰。2019年2月,新华社还推出全球首个站立式AI合成主播“新小萌”;同年6月,新华社、俄罗斯塔斯社和搜狗公司共同研发推出全球首个跨语种俄语AI合成主播“丽莎”,亮相世界通讯社大会。2020年5月21日,新华社再次推出全球首个3D AI合成主播“新小微”,推出以来在两会报道等重要场景中发挥积极作用。此外,《人民日报》的“小晴”、央视频的“央小天”、央视网的“小C”也不断推陈出新,探索人工智能时代虚拟媒体人的新玩法。在媒体深度融合的政策支撑下,各地也在探索并布局虚拟媒体人的应用,北京广播电视台的“时间小妮”、湖南卫视的“小漾”、人民网的“小晴”、澎湃新闻的“小菲”等,AI 合成主播开始遍地开花。
现阶段的虚拟媒体人在内容生产与传播效率方面的优势逐渐显现,以央视网“小C”为例,2021年东京奥运会期间,《C+奥运》栏目单条视频生产速度可控制在3分钟以内,效率远超真人播报,省去了演播室资源协调、主持人准备等环节。[2]从可持续性上看,新华社“新小浩”上线后,在一年多的时间内先后产出13000多条新闻报道,累计时长超过35000分钟。人工智能驱动下虚拟媒体人的业务边界也在不断拓展,更加智能、更加垂直。2021年6月新华社又推出一位特殊的新闻工作者“小诤”,她对新闻事件能快速反应,并进行智能化数据分析报道。上线以来,“小诤”先后进入载人航天工程、深空探测工程等场景现场报道;在北京冬奥会期间不仅推出各类冬奥报道产品,还利用计算机视觉对运动员姿态进行分析,回答“中国为什么赢得金牌”等问题。
从虚拟媒体人发展的三阶段可看出,这一领域需要很强的技术和很多的资本投入,同时需要长久的发展布局以顺应时代变化。虽然AI驱动的虚拟媒体人已成主流,但在实现路径上存在三种方式,分别是真人驱动、AR+VR、AI驱动,在具体应用场景与实践案例上也略有区别。
虚拟媒体人在实践中的挑战
如果将2018年视作我国虚拟媒体人的AI驱动元年,4年多来,我们能够看到这一行业带来不少惊喜,也暴露出不少问题。具体而言,存在如下挑战:
一是媒体深度融合背景下,部分地方媒体AI能力难以支撑虚拟媒体人可持续性运维。在实践中,即便是中央级媒体,也难以独自完成虚拟媒体人及其内容的设计、运维、生产、传播,通常需要联合科技公司、上下游伙伴,通过技术支持等方式合作完成。目前我们看到大量“破圈”的虚拟媒体人案例,但难觅基层媒体的身影。如何在较短时间内进一步降低运维成本,让AI真正落地基层媒体,内嵌到包括县级融媒体中心在内的各级媒体,共同提升治理效能,还值得观望、期待。
二是3.0阶段的虚拟媒体人虽然实现了“由形转神”,但远未实现智能化、个性化,这与我们理想状态下的虚拟媒体人尚存较大距离。从实现路径看,真人驱动的虚拟媒体人基于CG技术,投入成本高,制作周期长,并未成为主流;AR+VR的方式需要提前设置好脚本,真人主播“演绎”互动,形式新颖但效率并不高,难以推广;AI驱动的方式更适合内容确定性较强、生产内容较为结构化的应用场景,如新闻播报等,这种模式下的虚拟媒体人本质上只是后台内容简单的传达者。[3]
三是现阶段的虚拟媒体人具体应用场景相对单一,基本集中于新闻播报、搭档主持、新媒体互动等方面。如何进一步打开想象力,避免用户“技术疲劳”是需要考虑的问题。不少媒体机构认为,有了虚拟主持人技术加持后,不仅可实现24小时播报,且方式新颖、形式活泼,更符合年轻用户的喜好。但年轻用户同时也是“喜新厌旧”的一代,如果在信息质量、服务广度、使用体验上没有常变常新,用户会很快产生审美疲劳,自然逃离。
虚拟媒体人对新闻传播业的影响
从技术与社会相互建构的角度出发,新兴媒介深度介入社会传播,先后经历了辅助、驱动、融合、共生等阶段,并从表达型传播转向互动型传播,重构了传受关系。虚拟媒体人尽管在当前实践中存在局限和挑战,但其对新闻传播业的影响已经开始显现。
首先,“虚拟媒体人会不会让传统媒体人下岗”本质上是个伪问题。从行业发展的角度看,这个问题实际上是人机共存状态下的分工问题。未来人工智能主播的应用场景可能与人类主播并不完全重合,这不仅因为在政治导向、深层语义的理解表达等方面依然存在难以逾越的技术壁垒,也因为人工智能主播在存在方式、应用场景方面的广度可能会超越传统意义上的播音员主持人。[4]
其次,新闻传播是一个对技术很敏感的行业,技术变革往往会带来理念的重构、实践的重塑、社会的重组。早在VR、AR等技术推出时就已引发相关讨论,认为传统新闻业将会在内容、业态、样式等方面产生显著性变化,从强调“吾牠关系”(I-It Relationship)为核心的客观新闻学转向强调“吾汝关系”(I-Thou Relationship)为核心的对话新闻学。[5]随着元宇宙从概念到实践不断推进,新闻传播在新媒介环境下的选择性更加多元。虚拟人是元宇宙基础的生命形态,虚拟媒体人也是元宇宙新闻传播发展的关键要素,元宇宙时代虚拟媒体人将发挥更加积极的功能。
最后,新闻传播业应从人类获取信息范式发展的角度,积极布局虚拟媒体人。从数字化时代人类信息获取方式的研究我们可以发现,从门户网站信息聚合模式下的“信息等人”到搜索引擎模式下的“人找信息”,从基于算法推送的“信息投喂”再到最新的诸如ChatGPT等人工智能应用“越过中间商”的信息交互与服务提供,未来虚拟人(AI Being)将会是改变信息传播的关键变量。这也对新闻传播业提出新挑战,如何积极布局虚拟媒体人,与人类信息获取范式的发展同步,将是未来新闻传播业值得关注的重点问题。
【本文为南开大学校级项目“新闻传播专业课程思政的实现路径研究”(编号:SJSCNK2-322)阶段性成果】
本文引用格式参考:
周培源,钟沈军.虚拟媒体人的发展及对新闻传播业的影响[J].青年记者,2023(02):16-18.