服务粉丝

我们一直在努力
当前位置:首页 > 情感 > 故事 >

让人工智能具备“汉语思维”

日期: 来源:中国社会科学网收集编辑:中国社会科学网

  ChatGPT等生成式人工智能产品的开发与应用,预示着人工智能生成内容(Artificial Intelligence Generated Content,AIGC)时代的到来。人工智能生成内容需要多维度的训练数据、大量丰富的训练资源、长久的训练时间和优秀的算法模型提供支持。汉、英语言形式和表达习惯的差异会对汉、英思维产生一定影响,而思维模式的区别又会导致行为方式的不同。目前的生成式人工智能产品,则多带有一定的“西方思维”色彩。因此,随着技术的不断发展,我国人工智能需要关注“汉语思维”,提供具有汉语意识的技术刻画方式和行之有效的技术实现路径。

  “汉语思维”指以汉语为载体的思维方式和习惯,包括复杂的汉语语言结构和悠久的汉语文化历史,蕴含着中华优秀传统文化的思想和价值观。汉语独特的语言结构、思维方式和历史文化,给我国人工智能的未来发展带来了一定挑战,同时也提供了宝贵的机遇。

  其一,“汉语思维”为人工智能的开发与应用提供了广泛的场景。随着人工智能在各行各业的使用愈加深入,人们对智能化的需求也随之增高。规模庞大的汉语语料库为我国人工智能的资源获取和数据挖掘提供了独特优势——不仅可以更好地助推自然语言处理模型的构建,提高学习效率、完善学习效果;还可以增强机器学习的训练及深层次语义的理解,从而具备良好的可解释性。

  其二,“汉语思维”可以推动人工智能的算法创新和技术研发。“汉语思维”与人工智能的有机融合,可以创造出更多具有中国特色和国际竞争力的人工智能产品,为用户提供更加贴近生活、更具实用性的智能化服务,并将进一步推动我国人工智能产业的发展。此外,随着内容和需求的不断增长,“汉语思维”还可以促进数据、算法、算力等要素持续迭代。我国大语言模型未来会带来更多创新性探索,开拓出更为广泛的应用领域。

  “汉语思维”与我国人工智能发展的融合具有广阔的应用前景。这不仅是促进我国科技发展的应有之义,更是我国人工智能高质量发展的必经之路。自然语言处理(Natural Language Processing,NLP)作为人工智能领域的一个重要分支,旨在利用计算机对自然语言进行智能化处理,包括自然语言理解(Natural Language Understanding,NLU)和自然语言生成(Natural Language Generation,NLG)两个部分。这两个部分都可以同“汉语思维”建立联系。鉴于“汉语思维”自身的独特性,我国人工智能未来发展需要关注汉语语言结构和汉语语言文化。

  汉语语言语法结构复杂,词汇量丰富。因此,在“汉语思维”同自然语言理解与自然语言生成相关联的过程中,需要关注汉语语法、词义、语义和语用等。此外,面向汉语的自然语言处理,需要深入理解汉语的语言和文化背景,尤其要考虑我国用户的文化习惯和心理需求。我们可以通过收集和整理不同领域和语境下的汉语文本进行语料库建设,然后依托语料库中的大量语言数据来训练模型,并将其应用到机器翻译、语音识别等领域。

  其一,机器翻译是一种使用计算机程序将一种自然语言(比如将英语作为源语言)的文本转换为另一种自然语言(比如将汉语作为目的语)的技术。其基本原理是将源语言的文本标注为计算机可处理的形式,并使用机器学习算法从这些标注中学习如何将源语言的文本转换为目标语言的文本。因此,在相关应用中需要机器翻译技术能够理解并处理语言结构和语言思维方式,从而实现准确翻译。比如,在汉语分词、词性标注、命名实体识别等任务中,机器翻译需要考虑汉语的词序、词性、语义、篇章等特点。而在翻译中涉及的语言,不仅是表面上的文字和语法结构,更涉及语言背后的文化、历史、传统等方面的元素。此外,中文语言中存在许多习惯用语、成语和俚语等特殊表达方式,这些表达方式往往不能够直接翻译成其他语言。鉴于此,机器翻译总体上可作为一种直线型、单向度、高度规整的符码转换活动,由于缺乏与文本之间的灵性互动,因此在对高阶思维的运用、语言的精准理解和表达、原文风格美感的再现以及灵感译文的产出等方面存在着较为明显的短板。机器翻译技术需要充分考虑到汉语独特的结构和思维方式,同时结合丰富的语言背景知识和文化素养,这样才能实现更好的翻译效果。

  其二,语音识别是一种将语音信号进行转换、使其可供计算机理解和处理的技术。其基本原理是将语音信号分析为一系列语音特征,并使用模式识别算法将这些特征映射到已知的语音模型,从而得到语音信号所对应的文本或命令。目前,语音识别技术已广泛应用于智能家居、车载导航、语音助手等领域,可以支持中文语音识别和语音交互,未来也将涵盖更广泛的领域。在“汉语思维”方面,需要解决的问题包括汉语的音调、声调和语音变异等问题。此外,还需要考虑汉语的方言和口音等因素。比如,汉语中有许多词汇在不同语境下的发音和语调是不同的。建立一个汉语语音语料库,可以帮助语音识别系统更好地理解和分析汉语语音信号。此外,还可以在语音库中加入成语、俗语、习惯用语等固定搭配的语音样本,帮助系统更好地识别这些表达方式。汉语语音库的建设,主要包括制定语音库制作规范、预收集与预评价、正式收集、语音标注、电子发音词典、语料库评价与分发等过程。对于汉语语音识别技术的发展,还需要不断探索和创新。

  我国人工智能的未来发展应考虑到“汉语思维”的特点和需求。本土化的大语言模型将更加适应我国的语境和市场,并助推有关技术进一步发展。在“汉语思维”领域深耕,能够使我国的人工智能绽放出独特魅力。

  (作者系同济大学外国语学院教授;同济大学外国语学院博士研究生;同济大学外国语学院博士研究生、郑州科技学院外国语学院教授)


  • 来源:中国社会科学网-中国社会科学报

  • 作者:许文胜 万菊 韩彩虹


相关阅读

  • 从肢体语言看“预训练”语言模型

  •   “预训练”语言模型,即通过“生成式预训练转化”(Generative Pre-Training Transformer,GPT)开展深度学习的一种语言模型。“预训练”语言模型为人工智能使用自然语言与大众
  • 潮评丨给AI投喂数据 应取之有道

  • 潮新闻 评论员 逯海涛图源:视觉中国“我们将对您主动上传的文档材料,在采取脱敏处理后作为AI训练的基础材料使用”……近日,办公软件WPS在其隐私政策中的表述被质疑滥用用户隐
  • 全国特等奖!总分双第一!为黑大学子点赞!

  • 日前,由中国教育电视台等五部门主办的第六届“中学西渐”杯全国汉语国际教育综合技能大赛总决赛在江西理工大学落下帷幕,共有来自浙江大学、北京师范大学、华东师范大学、吉林
  • 人工智能与“全球治理指数”的建构

  •   当前,世界范围内一些影响力较大的国际问题指数往往存在比较明显的价值观偏见问题。如全球和平指数(Global Peace Index)将一国的和平水平直接与军费、是否拥有核武器甚至自

热门文章

最新文章

  • 让人工智能具备“汉语思维”

  •   ChatGPT等生成式人工智能产品的开发与应用,预示着人工智能生成内容(Artificial Intelligence Generated Content,AIGC)时代的到来。人工智能生成内容需要多维度的训练数据、
  • 为什么就算被辣哭,也放不下手里的麻小?

  • 你喜欢吃辣吗?对于辣椒,有人嗜之若狂,顿顿不离,离开了它手中的米饭都不香了;也有人避之如虎,尝一点点就直接“上头”。辣椒炒肉、辣子鸡、剁椒鱼头、涮涮锅……堪称“国民”调味料
  • 一封感谢信,一件暖心事……

  • 为积极探索联系服务群众机制,曹杨新村街道对标落实普陀“365”工作法,扎实开展“进百家门、知百家情、解百家忧、暖百家心”的走“四百”工作。今天,让我们一起走进金岭园居民
  • 从肢体语言看“预训练”语言模型

  •   “预训练”语言模型,即通过“生成式预训练转化”(Generative Pre-Training Transformer,GPT)开展深度学习的一种语言模型。“预训练”语言模型为人工智能使用自然语言与大众
  • 民进厦门市委会老年委组织开展敬老节活动

  •   11月10日,为深入开展“凝心铸魂强根基、团结奋进新征程”主题教育,欢度2023年敬老节,民进厦门市委会老年工作委员会组织80余名退休老会员前往厦门奥林匹克体育中心和厦门国