作者:邬建中(四川外国语大学新闻传播学院教授);杨帆、李清鑫(四川外国语大学新闻传播学院硕士研究生)
来源:《青年记者》2023年第4期
问题的提出
AI主播是通过人工智能技术,对语音、形象等进行多模态信息处理,提取出人体声音、面部、表情等的关键点,进行建模后生成的主播。从最初的2D到现在的3D,从最初的动画形象到现在的AI主播,作为认知科学与人工智能在播音主持方向的代表应用之一,AI主播开始出现“具身化”的发展方向。这在一定层面上反映了传播模式从“离身性”(disembodied)向“具身性”(embodied)的迁移视角。但是,二者并不是非此即彼的关系,而是相互交织的关系,在不同时间和条件下呈现出不同侧重与特点。
传统认知主义认为,无论是离身理论还是具身理论,其本质都是“计算过程”。具身理论(Embodied theory)来源于对身体理论的源头异议和思考。如果以计算机为参照,大脑是计算机的“硬件”,而运行其中的“软件”便是认知。软硬件交互运行却又相互独立,便出现了所谓的“离身理论”。由此,离身的心智基于人脑便成为人的智能,基于电脑则成为人工智能。与此相反,具身理论认为心智是基于身体而存在的,在任何时候,都占有一个特殊的空间,且面临一个具体的方向。不论何时,身体都是认知的基础,即“硬件”与“软件”同作为一个整体而存在,脱离任何一方都无法独立运行。也就是说,认知是身体的认知,心智是身体的心智。从现象学的视角来看,身体有三重含义:“身体1”是物质层面的身体,即人的肉体存在;“身体2”是社会文化层面的身体;“身体1”与“身体2”在技术层面的相互交织与展现中,即产生了“身体3”,也就是本文所研究的重点,虚拟空间中身体的再现。美国现象学家唐·伊德关于“身体3”的解释大多将技术作为主体,他认为通过技术对特定事物进行体验,身体与技术便关联在一起。而随着新技术的变革,通过技术复制的身体形态成了新的体验范式。通过AI合成的数字孪生(Digital Twin)技术复制的身体并存,成为反映世界的数字化身和增强现实技术的生理学实体。因此,在技术的推动下,真实主体与AI主播在具身性在场中分离,但其依然具有衣着、语言、表情等。AI主播就是媒介传播中应用数字孪生技术的典型代表。现实世界中的特定事物可以复制其技术具身的形态,在镜像世界(Mirror world)中生成数字孪生,人们可以像在现实世界中一样进行操作与体验。唐·伊德对于具身形态的三个身体的拆分可以解释在研究身体问题的过程中,人们不自觉地将视角转向身体与意识的二元对立关系的原因,同时也为本文的技术具身解构提供了理论视角。如何理解AI主播的技术具身?如何对现阶段的应用进行反思?媒介进化与融合的趋势下,“虚拟身体”与“物质身体”的结合会出现哪些可能?
溯源:AI主播的发展
AI主播是人工智能与信息传播交融的重要形态,也是媒介进化从“离身化”转向“具身化”的范例之一。从2018年全球首位AI主播诞生开始,新华社、央视等媒体纷纷推出了AI主播。媒介形态可以分为四个阶段:“身体媒介”是指肉体在场,即生物学意义上的人,有着固定的地缘关系;“无身体媒介”是指机器与生物学意义上的人,工具与使用者的关系;“身体化媒介”是机器与以“数字身体”形式存在的人,是虚拟在场的,有着多变的趣缘关系;“类身体媒介”是机器人与“技术身体”形式存在的人,是技术真实下的虚拟在场,有着平等合作者的关系。“身体媒介”时代只针对生物学意义上的人,AI主播不在此范畴。所以本文集中于“无身体媒介”“身体化媒介”“类身体媒介”对AI主播的发展进行探究。
(一)无身体媒介:数字技术
“无身体媒介”的传播参与者是机器与生物学意义上的人。AI主播并不是生来如此的,二进制代码创造了一个又一个身体替代功能,在此基础上,数字媒体是使用二进制数据处理、记录、传递矢量数字文本的媒介。数字电视动画、多媒体动画及其网络动画、数字特效等传统数字技术的常见表达都旨在脱离人类的本体。在数字时代,技术为媒介信息的传播提供了载体,身体得以隐退,离身理论指导的媒介发展呈现工具与使用者的关系。
(二)身体化媒介:动画主播
“身体化媒介”的传播参与者是机器以及以“数字身体”形态存在的人。该阶段动画主播的兴起,让认知主体从离身性的技术内核变为具身化的主播形象,“身体化媒介”创造了一个又一个的虚拟在场,此时的AI主播不具有真实身体,却拥有定制的卡通形象并收获了一定的受众群体,能够发挥“身体化媒介”的功能。2000年4月,英国PA新媒体公司创造了世界上首位非真人形态动画主播——安娜诺娃(Ananova)。动画主播的出现,让主播初步拥有了虚拟的身体,“身体化媒介”的传播模式正在逐渐消解真人主播与AI主播的边界。
(三)类身体媒介:AI主播
“类身体媒介”的传播参与者是机器人以及以“技术身体”存在的AI主播。AI主播与真人主播在技术的虚拟在场中,建构相对平等的协作关系。AI主播从最初2D版固定坐姿、读稿式半身主播形象,到3D版可自由行走、实时互动的全真人形象,印证了其具身化的发展方向。技术不再仅仅是海德格尔合乎目的的工具,更是优化主体行为的一种方式。合成主播不再局限于简单的文字与声音传导的“离身性”传播模式,而是拥有了可视化身体和艺术价值的“具身化”创造。
反思:AI主播的身体
真人主播以身体为媒介,用语言、表情、动作与观看者进行交流与互动。而AI主播的技术身体缺乏社会、文化教育等多重语境下的叙事基础,只有外在叙事内容,通过技术反映眼神、表情等姿态语言,只模仿到形态而模仿不了神韵。
将唐·伊德关于三个身体的分类运用到AI主播上,对其所存在的特殊形态进行延伸解读。AI主播的媒介存在形式及传播方式是它最具主动属性的形态,“媒介身体”与物质身体对应,作为AI主播的第一层身体含义;而人工智能技术是AI主播具身形态的直接展现,是其被技术构建的身体,我们将其表述为“技术身体”,此为AI主播的第二层身体含义;社会性互动是AI主播的第三层身体含义,它是在与受众的认知、情感、行为的互动中形成的,一切AI主播的行为都直接或间接地与之相关联,所以将其称为“互动身体”。
(一)媒介身体:身体展现的局限性
AI主播“身体”的出现与动作形态的进化,需要通过深度学习达到类人化,并利用平台的用户大数据挖掘和技术后台的自适应生产,形成其媒介中身体的个性化与差异化。目前的AI主播还受到相关技术的制约,无法达到高度类人化,不同平台的AI主播在形态、动作等多方面都表现出较强的相似性,AI主播尽管是高度还原主持人的声音语调,但仅仅是机械化的技术声音。AI主播在表达时消解了语言艺术本身所具有的艺术属性,美感减弱,成了缺少灵韵的流水线生产,沦为趋同化的“虚拟符号”,难以实现长远发展。AI主播的媒介身体仍有其传播壁垒和边界,其使用只限于一定媒介平台范围内。
(二)技术身体:身心关系的复杂性
传统主持人的在场是通过生理学上的身体概念进行承载,新技术的加入也使得对在场与缺席的讨论不再是形而上的认知,用户所能够感知到的“在场”是主持人通过屏幕所呈现的“在场”,AI主播实现了身体图式之间的互移,技术身体的在场可以实现AI主播与用户身心之间的交流。但是AI主播难以真正代替投入生物身体的对话类主持人,因为技术的进步无法消解生物身体的重要性。身体概念并不局限于生物意义上身体的认知,而成了形式多元的开放性主体。詹妮斯·霍克(Janice Hocker)和托马斯·弗伦茨(Thomas Frentz)提出的现代主义的身心二元论,为后现代主义的心智、身体和机器的三分法让路。AI主播的影响力是其心智、身体和机器三种属性的交织,所以不能将身体与机器分割来看。
现阶段的AI主播往往更加重视身体与机器属性,对于心智有所忽略。多数的AI主播只是对于格式和数据的简单嵌套,这在一定程度上导致了AI主播的具身性较弱,缺乏人的情绪和情感。AI主播与真人主播的工作模式一样,机器属性对应“主持人”工作中的“技巧”维度,这是其各种行为的来源;身体则对应“定位”维度,AI主播的设计本就是为受众服务的,不同合成主播间的差异化也是出于不同的定位需求的考虑;与心智相对应的便是“感受”,“感受”无法由简单的数据、资料堆叠形成。因此,只有在机器属性、身体和心智三者相结合的情况下才能凸显AI主播的效用以及价值。
胡塞尔曾认为身体与机器之间最本质的区别在于心(即意识),人类能够通过自己的意识直接地感知周围的事物,并做出相应的反应。从此视角来看,只有当AI主播成为人们构想中的有接近人脑的神经结构,超越人脑的思维结构,成为完全的智能体,才能达到身心统一。当下AI主播对心智的轻视也一定程度上增加了AI主播在具身环境中成为技术附庸的可能性,技术的失权很可能引起管控的失调。人在创造价值的同时,离不开身体的实践和创造。技术身体的传播也是如此,具有的逻辑编排能力,应当拥有一定的价值伦理的判断。这一特征一旦变化,工具理性就对价值理性产生了威胁,AI主播的技术身体可能朝向异化的角度。我们来自身体经验的认知结构能隐喻和转喻地进行投射,而这样的期待也离不开对技术身体的身心关系的探讨。只有在规范、足够重视人类主体本身的情况下,并且在人文关怀上做出突破,正确认识身心关系之间的复杂性,让其紧密连接,相互作用,AI主播才能拥有更加光明的发展前景。
(三)互动身体:互动空间的缺失性
从马克思的交往观来看,传播是基于精神交往与互动的,AI主播在社会中的身体是人们获取信息的主角,能够成为海姆所言“连接人类用户和计算机处理器的接触点”,存在于虚拟空间,根据编排好的逻辑算法对外进行声音传播,与外部环境进行交互,通过导入信息数据,模仿人类语言系统的反应,回应他人与自己的对话,却缺失了真正反馈的环节,当对话者的内容跳脱所编排的程序,就无法进行正常的工作。AI主播的数字化构成了一个新的复合主题认知系统,虚拟化和外部化的人类智能部件也得到了体现,形成了极度分散存在的具身空间。
播音主持是艺术形式的一种,包含着情感状态,通过情绪表达更能够激发用户的情感共鸣,实现人与人之间的精神交流。梅洛-庞蒂认为身体感官连接了客观世界,真人主播通过感官感知到外部世界的相关信息并做出相应的反应,AI主播通过人工智能技术实现了“感官”替代,并能够感知外部情境。真人主播能天然动用自身各个感官,通过视觉、听觉、触觉等对周围的情境和隐性状态进行全方位的感知,进行“救场”或者是“精品创作”。AI主播虽然有“感官”进行感知,但是只停留在对显性状态进行感知,即所直接表现出的具体文本和语音,不能对语言当中的隐喻进行感知,即无法进行情境认知。仅仅是新闻播音员的AI主播,无法满足用户更深层次的情感需求。从这一关键点可以看出,AI主播在互动空间上缺失对隐喻内容的感知,容易造成在传播表达上情感的空洞和内容的偏差,可能会违背创作规律。
展望:AI主播的未来发展可能
(一)媒介融合促进“媒介身体”的多域化可能
媒介融合让具身化的AI主播可以成为多元领域中身体的延伸与泛在。在赛博空间中,身体的“不存在”并不意味着“身体”主体性的不存在。AI主播借助语音/面部识别、神经算法和人工智能自动驾驶等新技术,成了连接智能传播场景的重要媒介,是基于图像视觉的虚拟泛在。这种人机交互方式拓宽了AI主播的应用领域,也让其主体性在不同的场景中得以显现。相较于传统场景,AI主播传播具有“海量、高速和优质”的特点。以AI主播为首的虚拟主体的广泛应用,为其“媒介身体”的多域化建构提供了新的可能。
这种多域化建立在对AI主播的场景化运用基础上,AI主播的技术身体可存在于家庭、工作、社交等多个重要的生活场景中,被设计成具有探索性、沟通性的具身化呈现。在此背景下,具身化的AI主播成了人机共生的重要界面与象征符号,其存在大幅度提升了新闻的分发效果,强化了新闻与受众之间的关系,能够提取、复制受众的使用逻辑,创造特定的播报场景,提升用户的在场体验。通过对用户定位和历史浏览数据等信息的抓取,可以塑造一个无处不在、智能全知的AI主播主体形象,塑造移动化的多元场景。
(二)媒介环境催化“技术身体”的强具身可能
所谓“强具身”是指人与虚拟主体之间更逼真、更实在的身体关系。此类虚拟主体以真实的自然主体为原型,使用多种新技术建构技术身体。在具身认知中,“弱具身”观点认为表征是存在的,但是这些表征具有身体的性质。具身认知中的“强具身”观点则主张认知是身体与环境互动的结果。认知发生于身体作用于环境的实时(real time)动力系统中,并不存在一个表征和表征加工过程。认知、身体、环境缺一不可,合而为一。认知是身体的认知,而身体的各项特性,如结构和性质等又经由进化产生而来,是环境塑造出来的。也就是说,心智位于人脑之中,而人脑则位于身体之中,最后身体又处于周围环境之中。这三者间的整体联系在海德格尔“being-in-the-world”的概念中非常明了地体现出来,这一概念也反映出认知过程与环境事件间的紧密联系。认知、身体和环境三者一同构成不可分割的整体。
媒介环境催化了“技术身体”的进化,给AI主播基于媒介环境的提升能力提供了条件,促使其朝着自主、能动、目的性活动的方向进一步发展,为实现AI主播的“强具身”提供了可能。以AR技术为例,由于其产生的技术视觉图像都建立在现实环境基础上,AR技术对现实环境和媒介环境的依赖感更强,可以通过眼镜和智能手机等设备在视频内容上实现虚实结合的复现效果。AI主播技术身体的本质是模仿人类原型主体的传播尝试,更是一种技术实践的新媒介,给公众带来自然主体与虚拟主体(新原型)之间的“感知界面”。AR环境中渲染虚拟对象的能力越强,AI合成主体强具身的水平就越高。而新技术支持下的具身性在场,必然对媒介环境与人的关系带来新的变化。正如保罗·莱文森所说,媒介发展要遵循“适者生存”的规则。他认为技术媒介越来越多地复制真实环境,提出了技术媒介发展进程的三阶段模型。A.所有的传播都是非技术性的,所有真实环境的元素都被呈现出来;跨时空传播能力上的生物局限也被呈现出来。B.技术被发明出来,用以克服跨时空传播中的生物局限。为了克服这些局限,早期的技术必须丢掉真实环境中的许多元素。C.随着技术变得越来越复杂,它们试图重获真实环境的元素,与此同时保持对时空的延伸。因此,先进的技术将B阶段中的延伸功能与A阶段中真实环境的现实功能结合起来。假如技术是一只让我们认识世界、让我们走出自然伊甸园的苹果,那它最终也会是那只能够使我们重返伊甸园的苹果。由此可见,AI主播要适应媒介环境的变化,拥有不竭的生命力,就要与具身形态紧密融合,做出适合人的选择,不断增强其强具身可能。
(三)媒介进化推动“互动身体”的个性化可能
保罗·莱文森提出媒介进化论,媒介进化最终是向着人的喜好发展,“媒介存活的条件是满足人的需要。技术发展的趋势是越来越人性化,传播技术之所以进化,是为了回应人类的传播模式,甚至在某些情况下,它们本身就是人类喜好的产物”。同时,他还提出了“进化的四轮车”这一概念:认为在媒介及其效应之间,存在着一种循环展开和渐进展开的关系,而在循环往复展开的过程中,存在着实实在在的前进运动——那不是一个封闭的圆圈。媒介环境的变化催化了媒介进化,也推动了合成主播的互动身体在人性化基础上进一步个性化发展的可能。
所谓“人性化”,即媒介的“人性化趋势”,是在强具身的基础上,AI主播的互动身体越来越像人,“技术在模仿、复制人体的感知模式和认知模式”。而所谓“个性化”,指AI主播的“互动身体”向有针对性地满足每一个人的独特需要进化。AI主播的互动身体主要是指“人-机交互”过程中以互动方式进行信息交换的过程中的身体。AI主播的互动身体作为信息传播的端口,在与受众互动的过程中,用户会根据自身需求进行充分的考虑,被个性化的互动身体所吸引。这一方式也将逐渐成为AI主播争夺用户市场的重要策略。在大数据、边缘计算、LoT等技术支持下的AI主播将被用户不断重构、经过多次挑拣成为用户喜欢的定制化互动身体形态。人们的需求对虚拟主体的主体性建构有着决定性的影响。所处空间不同、时间不同、人文环境等因素的不同,都决定了用户对于互动身体个性化需求的多样性。人们对AI主播的个性化需求不仅限于媒介本身,更多地是充分融入人对技术的驾驭视角,独立于媒介又融于媒介,通过诸多基于个性化的人工智能核心技术,例如关键面部点检测、面部特征提取、重建面部动作、识别嘴唇形态和情感传递等多重建模技术,实现个性化的AI化身。
AI主播从数字技术到2D、3D技术,从半身形态到全身形态、自由可移动形态的不断进化,印证了AI主播将强具身作为主要的建构方向。虽然目前AI主播还存在着一些问题,但具身化的AI主播作为人与世界交互的媒介,其三个身体的问题不能简单归为媒介环境的复杂化,更应该看作全新环境的诞生。AI主播的强具身传播,可能会成为人机共生形态的信息传播载体,并推动信息传播领域的进一步变革。
【本文为重庆市教育科学“十三五”规划2017年度重点课题“大数据视野下智能型在线学习研究”(项目号:2017-GX-026)、国家社科基金“人工智能时代电视产业创新发展研究”(批准号:19BXW039)阶段性成果】
本文引用格式参考:
邬建中,杨帆,李清鑫.溯源、反思与展望:AI主播的技术具身[J].青年记者,2023(04):60-63