近年来,生成式人工智能技术在各个领域都展现了广泛的应用价值。其原理是利用复杂的算法、模型、规则,通过学习大规模数据,创造性地生成新的数据。这项技术能够生成文本、图片、声音、视频、代码等多种类型的内容,超越了传统软件的数据处理和分析能力。2022年末,OpenAI推出的聊天机器人ChatGPT标志着这一技术在文本生成领域取得了显著进步。随之,该技术从单一语言生成逐步向多模态、具身化快速发展。
在语言研究领域,生成式人工智能作为一种强大的工具,常用于处理和生成语言数据,并且能够模仿人类语言的创造性和多样性,其模型的应用广泛覆盖文本生成、内容创作、机器翻译等方面。在该领域,生成式人工智能的技术核心是训练大规模语言模型,继而理解、生成符合特定需求的文本,以自然、连贯的方式与用户进行交互。从这个意义上讲,生成式人工智能使语言研究领域呈现出“数字化”特征,而语言数据一定程度上被视为“资产”,具有“价值”。换言之,语言数据的转型促进了语言研究领域中语言知识生产范式的变迁,乃至语言服务行业中生产力及生产关系的重大变革,继而推进了该领域理论与方法的创新。
语言研究的机遇与挑战
正如OpenAI联合创始人兼首席科学家伊尔亚·苏茨克维提出的,生成式人工智能的工作原理是不断培训神经网络体系,使其能够预测下一个词汇。在此过程中,基于收集的海量文本数据,其不仅进行表面层次的自我学习,还需要在当下预测的单词和过去的单词之间达成一定的逻辑上的一致,而历史数据还可用于优化模型并投射未来单词预测。从这个意义上讲,生成式人工智能为语言学研究带来了诸多方面的机遇,有力助推了语言理论与应用的纵深发展。以自然语言处理(NLP)为例,传统范式进行文本处理通常分为多个阶段,包括词法处理、句法处理、语义处理,以及特定领域任务处理等,依次处理文本以提取特征并完成最终任务。其中,词法处理是将连续的文本分割成独立的词语或词组,识别并分类文本中的命名实体,如人名、地名、组织机构等,以帮助确定文本中的关键实体,提高后续处理的准确性。句法处理包括识别句中词语的依存关系,以及句中的成分结构,如主语、谓语、宾语等。语义处理包括词义消歧、代词消解、语义角色标注(如施事、受事、工具等)。此外,还要进行特定领域的任务处理,包括分析文本中的情感倾向,判断其情感极性(如正面、负面、中性)等。在传统NLP范式下,每个处理步骤都是独立的模块,由不同的模型完成。每个模型需要在专门标注的数据集上进行训练,以确保在特定任务上的表现最佳。相比之下,生成式人工智能采用深度学习的端到端(end-to-end)方法,直接从数据中学习特征,避免了传统自然语言处理中依赖手工设计特征工程的复杂性和局限性。以OpenAI最新推出的ChatGPT-4o为例,其中包含了数以万亿计的参数,打破了传统NLP范式中需要为每个任务单独训练模型的模式,可通过少量任务特定的数据进行预训练和微调,提高模型的通用性和迁移能力。这就是为何传统NLP范式在处理长文本或复杂语境时常常力不从心,而生成式人工智能生成的文本在语法、语义以及连贯性方面均达到了前所未有的高度,超越了传统NLP技术的表现。
生成式人工智能以“鲁棒”的“算法”“算力”和“算据”,在语言研究的各个分支都体现出了较强的应用性。从词汇学研究角度来看,生成式人工智能在自动化词汇生成与扩展、词汇语义分析的精细化、词汇关系与结构的建模、多语言词汇对比研究、词汇习得与语言教育、词汇语料库的构建与分析,以及新词汇的识别与分析等方面的作用不容小觑。例如,生成式人工智能通过语境可以提升词汇语义分析的精度和广度,并基于词汇的语义场分析,区分多义词的不同含义,以及识别同义词、反义词和上下位词等语义关系,继而推动词义分析的深入发展。传统研究词义的历时发展变化(如扩大、缩小、脱落、转移等)主要通过对大量历史文献的阅读和分析,从中提取足够的例证,以证明词义的发展演变。然而,要探索词义古今发展的历史轨迹及其规律,需要对海量历史文献进行细致的分析,从中筛选出词义演变的语料,且不论需要花费大量的人力、物力以及时间,既有辞书(如《辞源》等)中收录的某些词条词义的可靠性在学术界仍存在争议。故此,传统词义研究往往会不断根据新材料、新例证、新结论对相关词条进行修正。相对而言,生成式人工智能通过对大语言模型进行相关能力的训练,并将相关历史文献数据化,依托大规模语料库,让具备理解与学习能力的模型自主开展搜集、整理和分析工作,对词义的发展演变进行全面、穷尽性的研究,从而得出比“作坊式”研究更可靠、更稳定、更科学的结论。
生成式人工智能恰似一柄“双刃剑”,其不断迭代发展对于语言研究而言,既是机遇也是挑战。尤其对于传统语言理论而言,可谓是一种无形的冲击。语言学家诺姆·乔姆斯基认为,诸如ChatGPT这样的模型缺乏对语言深层结构和生成机制的理解,忽视了语言的认知基础和普遍性原则,且缺乏对语言含义的深层次理解;而所有自然语言共享一套普遍的、内在的语法原则,这些原则是人类语言能力的基础,是人类天生的认知结构的一部分。然而,乔姆斯基的这种观点很快被加州大学伯克利分校的神经心理学家史蒂文·皮安塔多西反驳。他认为,当今自然语言处理的表现最为突出的是被称作“转换器”(transformer)的深度神经网络,该网络经过足够大的数据集训练,可灵活处理非本地的依存关系,因而生成式人工智能的迭代发展在很大程度上削弱了转换生成语法关于语言天性的论断,其对特定洞见、原则、结构和过程的核心主张已经颠覆并绕过了乔姆斯基关于生成语言的整个理论框架,包括句法结构和语义结构,在拥有数以万亿计参数记忆的基础上既强调了构式的重要性,又继承了显式句法和语义联结计算的传统。由此可见,生成式人工智能已经对语言研究的理论体系和方法论体系产生了深远的影响。
生成式人工智能应用的对策建议
生成式人工智能在语言研究中具有巨大潜力,但同时也面临诸多挑战和问题,需要我们批判地使用。一方面,生成式人工智能是人类文明发展到一定阶段的必然产物,其不断发展很可能将语言研究推向一个全新的阶段,特别是在数据处理及分析能力方面,将为语言研究带来革命性的变化。因此,未来大语言模型的研制、构建、优化、训练等过程需要各个领域的研究人员协同参与。特别是针对既有模型中中文数据占比较少(如ChatGPT中训练语料仅为0.16%),且质量不高的现状,可以通过多渠道扩展中文数据来源,包括公开数据集、文献资源等,进一步解决“数据孤岛”问题。
另一方面,生成式人工智能在语言研究中的伦理问题也需重视。首先,从数据隐私与保护层面看,在收集和处理语言数据时,尽量采用数据匿名化和去标识化技术,对敏感数据进行加密处理,并采取安全存储措施,防止数据泄露和未经授权的访问,严格遵守相关隐私保护法律法规。其次,从模型的透明性与可解释性层面看,公开模型的架构、训练方法和数据来源,向学术界和公众解释模型的工作原理和决策过程,采用可解释性技术,会使模型的输出和决策过程更加透明,更易于理解。最后,是语言学界最为关心的伦理审查问题。未来的语言研究必将建立相关伦理审查机构及平台,其主要职能是负责评估和检测生成式人工智能的具体伦理问题,包括学术剽窃、数据造假等,并制定权威的生成式人工智能使用规范,来明确研究责任和义务,以确保在语言研究中的科学性和伦理性。
一言以蔽之,未来生成式人工智能迭代及其颠覆性技术的突破,必将带给语言研究领域全新的研究理念与方法。尤其在新文科背景下,语言研究早已摆脱了所谓“非科学”的束缚,大量成果也早已跨越学科“藩篱”,不再拘于狭义“语言学”的“一隅之说”。可以说,只要合理运用,生成式人工智能将使语言研究在学理思想、知识构建、方法创新等方面释放出难以估量的文化生产力。
(本文系国家社科基金项目“语料库驱动的英汉语言学话语体系对比研究”(21BYY046)阶段性成果)
(作者系大连海事大学中华优秀海洋文化外译研究中心教授)
来源:《中国社会科学报》2024年7月4日第2926期
作者:冯浩达 曾罡