服务粉丝

我们一直在努力
当前位置:首页 > 科技 >

语言智能时代呼唤语言学理论创新

日期: 来源:中国社会科学网收集编辑:中国社会科学网

  ChatGPT等语言智能技术的出现与应用,对语言学、语言教学、写作、出版等领域带来了一定冲击,并引起了不少争议。随着技术公司的不断涌入以及全球用户的不断增加,各种支持和反对的声音也不断出现。脱胎于20世纪初结构语言学的现代语言学已发展百年。面对ChatGPT等语言智能技术的挑战,语言学能否回答机器语言智能带来的问题?如何面对支持与反对的声音?能否指导机器语言智能的发展?语言智能时代的新问题、新挑战,需要语言学通过不懈探索与理论创新进行积极回应。

  相关讨论

  在关于ChatGPT的有关讨论中,支持的声音至少可以归纳为两种。一是ChatGPT有效推动了大数据和机器学习模型的发展,在资金、人才、技术、应用等方面将吸引到更多资源,或能取得更大的技术进步与突破。在一定程度上可以说,ChatGPT已经在文字层面通过了图灵测试(机器可以像人一样与人对话),这将使越来越多的资源助推这种基于大数据和机器学习的技术发展。二是ChatGPT非常好用,应好好利用。ChatGPT是一个非常方便的工具,通过简单的命令便可生成符合要求的结果。虽然还不够完美,但是可以节约大量的时间与精力。

  同时,相关批评和反对的声音大致可归纳为三种。一是ChatGPT不知道自己在做什么。它只是一个基于超大规模语言数据训练出来的模型,并没有多少学习与认知能力,更谈不上思考。有时,它所生成的内容也并不精确,经常张冠李戴,只是看上去表达非常流畅。二是ChatGPT会干扰学校的教学和论文写作等正常秩序。学生们可以使用ChatGPT生成文本来完成作业或撰写论文、读书报告、程序代码等,这可能使很多学生难以接受正常的知识技能训练,从而干扰了正常的教学秩序。三是ChatGPT挑战了传统的语言学、心理学、文艺学等人文学科,也产生了许多知识产权、网络欺诈等相关的法律问题。ChatGPT基本没有用到传统的语言学、心理学的研究成果,而主要依赖于大数据和神经网络模型。对语言学家来说,这是一个非常大的挑战。语言学有着辉煌的历史,对各种语言有着大量的现象描写与规律总结,却没能为ChatGPT这类产品提供理论基础。

  理性看待

  语言学家应如何理性对待ChatGPT等语言智能技术带来的冲击?想回答这个问题,还是要回到乔姆斯基20世纪50年代发表的论文《描写语言的三种模型》。在这篇论文里,乔姆斯基指出了马尔科夫模型的问题,认为马尔科夫这种数学模型不足以生成合法的自然语言句子。在将人类儿童与这种经验主义的数学模型进行对比时,乔姆斯基认为,人类儿童一般3岁左右就可以学会说话,但他们并不需要大规模语言数据作为学习基础,只需要较少的样本便可以习得语言。并且,乔姆斯基区分出人类的先天语言习得装置(大脑硬件)和后天的语言习得过程,更加推崇能够生成合法句子的句法研究。在近期的访谈中,乔姆斯基认为,ChatGPT就是基于高科技的在海量的数据上的“剽窃”,追捧ChatGPT就是浪费资源。

  马尔科夫模型注重句子内部前后词语之间的接续概率问题。作为基于语言数据的统计学习模型的先驱,该模型早在20世纪初就被提出。但直到20世纪八九十年代,随着计算机对语言数据的大规模存储能力和计算机算力的不断发展,该模型才在语音识别、输入法、词性标注等任务上大放异彩,并在计算语言学领域占据统治地位20年左右。之后,该模型逐渐被其他更好的统计学习模型取代(如最大熵模型、支持向量机、条件随机场等)。2006年以来,基于深度学习的神经网络模型不断取得进步,在语音、图像、文本等领域都取得了非凡的成就。而神经网络模型在20世纪40年代就已被提出。经过60多年,该模型随着计算机软硬件的不断发展而不断进化,效果越来越好,不仅能够生成越来越合法的句子,还可以更好地“理解”人类语言。基于大数据和机器学习的自然语言处理技术,已成为计算语言学和工业界的主流。

  ChatGPT也经历了这种进化,此前GPT的1—3代,性能越来越强,不断刷新着语言学家的认知。2018年,GPT-1是在约4.5GB的数据上训练而来,模型的参数约为1.2亿。2020年,GPT-3是在约570GB的语料上学习训练,模型的参数多达1750亿。ChatGPT利用深度学习技术在大规模语言数据上训练出一个大模型,根据用户的提问生成一段回答。在这个过程中,它完成了自然语言的理解和生成两大任务。计算机与人脑不同,难以像人类一样表征、感知和理解意义。所谓的理解和生成,在对话任务中就变成了大模型根据问题来生成回答。从实际效果来看,机器学习的作用类似于人类语言的习得机制,海量数据类似于人类后天的语言习得数据,而大模型则如同人类的语言能力。在可预见的未来,ChatGPT还将不断发展,或可集成语音、图像、视频甚至更多模态的机器感知数据,利用多模态逼近意义的表示与运算,形成不断更新的多模态对话系统乃至更自然、完善的人机交互系统。这种强劲的发展势头,应引起我们的足够重视,理性分析其原理、优势与不足,探讨应对之策。

  积极应对

  现在看来,大数据输入+神经网络模型,或可看作人脑之外的另一种语言习得与生成机制。就像人类发明的飞机,飞行不一定需要像鸟儿那样有两只会扇动的翅膀。空气动力学、材料学以及各种发动机等,开辟了航空航天的新世界。这里的主要问题在于,有些新技术并没有脱胎于传统学科。ChatGPT的这种发展路线,是独立于语言学之外的一种技术路径。它本身除了数学基础和软硬件技术之外,并没有建立针对语言的完善理论,就取得了重大进步。对此,我们需要发展出基于这些技术实践的新理论、新方法,语言学理论创新成为当务之急。具体来说,新的语言学理论需要解释三个方面的新问题。

  首先,ChatGPT为何在不需要人脑,仅依靠大数据和大算力的条件下就可以取得较好的人机对话效果?换句话说,基于冯·诺依曼结构的计算机与基于神经网络的数学模型,究竟解决了什么样的问题,使ChatGPT能够在一定程度上模仿人类的语言能力。目前来看,这主要依靠机器学习领域的专家和工业界的计算语言学家联合攻关。但在已有的探讨中,他们也非常吃惊ChatGPT的表现,即能够在通用领域(而不只是天气预报等特定领域)取得较好的表现。目前,他们并没有非常清晰的理论体系和理论阐释。这可能需要语言学家的共同参与,厘清ChatGPT之所以比较成功的基本理路。

  其次,能否借助ChatGPT的技术,基于大数据来探索人类语言能力的奥秘?目前,ChatGPT的英语能力好于汉语。是否单纯为数据量的问题,还是汉语比英语更难处理?同时,我们也需要进一步考虑这样一个问题:是否可以利用大数据和人工智能方法来研究语言?人类语言的数据量是巨大的,但在古代大部分都无法记录下来。而在21世纪的信息时代,人类的语言,特别是在电子设备上书写的语言文字,每天都在数以亿计地增长。过去,语言学家主要以个案调查的方法,研究语言现象、总结语言规律。今天,互联网上的海量数据,给语言学家提供了非常多的研究资料。这种原始材料规模之巨大,仅靠个人之力是难以卒读和把握的。400多年来,天文学利用望远镜等设备的不断发展观测到海量的天文数据,然后利用计算建模方法不断重构宇宙模型,获得了诸多重要突破。那么,在21世纪,能否借助人工智能和大数据分析技术,帮助语言学家分析和构建人类语言的数学模型?

  最后,是否可以研究基于计算机的语言习得理论与方法?超级计算机在短时间内就可以基于海量语言数据进行各种参数训练。随着语言智能技术的发展,我们也许需要区分基于人和基于计算机的两种不同的语言理论。一方面,两相结合可以更好地研究语言的根本属性和规律。另一方面,探索基于机器的语言理论,可以助力人工智能技术迈向更为成熟的语言智能阶段,从而产生面向人类社会的更多更有用的语言智能产品。更重要的是,语言智能技术正在使计算机不断成为人脑之外的新试验田。在人脑上实验有着伦理、法律等诸多因素的限制;而在计算机这块新试验田上,研究人员可以把语言学、心理学、神经科学等学科的种种发现、种种规律、种种数学模型等进行运算和实验,从而使其成为验证和完善理论的重要依据,并助力这些领域的进一步发展。

  ChatGPT等语言智能技术的方法及应用,对传统的语言学理论带来了一定挑战,同时也带来了语言学理论创新的契机。海量的真实语言数据、超大规模数据分析与机器学习技术等,都给语言学带来了新的资源与方法,为语言学理论创新提供了重要基础。

  (本文系江苏省教育科学“十四五”规划课题“面向人工智能的教学资源新生态构建与实践”(D/2021/01/120)阶段性成果)

  (作者单位:南京师范大学文学院;金陵科技学院外国语学院)


  • 来源:中国社会科学网-中国社会科学报

  • 作者:李斌 张松松


相关阅读

  • ChatGPT:多维思考与审慎应用

  •   ChatGPT问世后不久,一度成为文化和科技领域的轰动事件,在社会上引发了广泛讨论。该系统能够基于书面提示自动创建文本,受到很多使用者的欢迎。国内外科技企业也争相效仿,纷
  • 大潮来袭,药企迎来数字化转型新机遇

  • 来源:博药公众号近日,中共中央、国务院印发了《数字中国建设整体布局规划》(以下简称《规划》)。作为影响中国未来发展的重磅文件,《规划》被业界评价为“数字挂帅时代的来临”,也
  • 2023科华合作伙伴大会圆满结束

  • 2023年3月17日,中国延安。向变而生,聚势笃行——2023科华数据合作伙伴大会圆满结束。这是一次探讨,亦是一次相聚。来自全国400余位伙伴相聚于此,与科华共话行业数字化、低碳化发
  • 网络安全产业回归高速增长

  •  我国网络安全产业正回归高速增长区间。近日发布的《中国网络安全产业研究报告》(以下简称《报告》)显示,2021年我国网络安全产业规模约2000亿元,较2020年增长16.6%,预计2022年
  • 中信建投:重视AI算力投资机遇

  • ‍重要提示:通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅
  • 见顶信号出现了

  • 大家好,我是药师,公众号调整文章推送规则了,点击上方蓝字
  • 宝宝双语教育的两个疑惑,这里告诉你答案

  • 0 ~ 6 岁是孩子语言飞速发展的时期,能在家培养孩子的双语能力是很多爸爸妈妈的期待。但是在学习过程中,家长也难免有这些疑惑:孩子孩子同时学习两种语言,会导致两种语言都学不好
  • 数字中国创新大赛数据开发赛道彰显五大特点

  • 聚焦大数据挖掘分析和创新应用数字中国创新大赛数据开发赛道彰显五大特点眼下,2023数字中国创新大赛数据开发赛道正在火热报名中。为帮助参赛者更好地参与比赛,组委会日前对赛

热门文章

  • 解码“新IT”的5个特征和3大价值

  • 党的二十大报告提出,要加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。在数字经济与实体经济深度融合的产业浪潮中,以智能设备、边缘计算
  • OPPO k1的低价高配真实么?网友:不看不知道

  • 近日OPPO一款新机OPPO k1,摒弃了高价低配,就连自家老大哥r17都要怼一下。更是放弃了请代言人,以往的OPPO手机还没出来,各路流量小生,花样美男的代言就先来了。还有线下销售人员的
  • 一招教你手机无限制成为一台新设备

  • 大家平时用手机去注册app,肯定会遇到检测设备异常,交易关闭,等问题 这个都是手机已经不止1-2次注册过此app,不断更换手机仅是一个暂时的方法,却不是长久之计,手机总归会用完
  • 从零开始如何开网店

  • 随着互联网的高速发展,人们的生活发生了翻天覆地的变化,生活节奏越来越快,网购已经成为家家户户生活中离不开的一种购物方式了。网购的发展使得越来越多的人想要涉足电商事业,那

最新文章

  • 语言智能时代呼唤语言学理论创新

  •   ChatGPT等语言智能技术的出现与应用,对语言学、语言教学、写作、出版等领域带来了一定冲击,并引起了不少争议。随着技术公司的不断涌入以及全球用户的不断增加,各种支持和
  • 随州大洪山现“樱花雪约”壮美景观

  • 随州日报讯(特约记者 贺晓利 通讯员 韩起璞 冯刚 高建新)近日,受突发低温雨雪天气的影响,湖北随州大洪山风景名胜区海拔800米以上的山林出现雾凇奇观。  千姿百态的冰凌在浓雾
  • 【暖心警事】别着急,“包”在我身上!

  • “警察同志,我的包丢了里面有很多重要物品!”3月4日下午16时许市民黄先生焦急地来到上海市公安局杨浦分局五角场派出所报警求助称当天凌晨他打车至政通路下车后将一个咖啡色双