计算机时代新发展:数据与人工智能的新应用

文/胡月

新世纪以来,全球共同迈入“以人为本”的数字时代。计算机对人类生活的各个方面产生的影响无疑是巨大而深刻的。计算机是一个年轻又古老的工具。说它年轻,是因为我们今天使用的电子计算机在1946年才诞生;说它古老,是因为其蕴含的计算逻辑、计算功能早已为先人所运用。1946年,世界上第一台通用电子计算机ENIAC应运而生。这台重达30吨的庞然大物,第一次将电子元器件作为计算单元。在其后几十年里,计算机从装满屋子的庞然大物,逐步进化为仅有沙粒一般大小的纳米计算机;计算速度从每秒几百次提升到每秒几万亿次,计算机运算速度提高了数倍,由每秒几百次到每秒几亿次,计算机内的存容量也由几千字节提高到几千万字节。计算机不再是神秘的科研专属,而是逐渐变成人们工作生活中不可或缺的普通工具。

随着计算机的高速发展和扩大使用,计算机以及软件的使用量达到高峰,这也就意味着需要更多的计算机软件人才。如何让人们都能够畅通无阻地使用计算机软件成为急需解决的问题,人和计算机打交道,总要使用某种计算机语言。但当今的计算机语言是如此之多又如此之复杂,让普通人千百万人精通所有的计算机语言软件及其语言也是不现实的。因此,科学家们意识到要深入研究如何将自然语言工具与计算机相结合,使普通人也能较容易地有效地使用计算机。随着人工智能时代的到来,网络数据挖掘、自然语言处理、人工智能这三者的结合实现了出乎意料的效果,来自南开大学人工智能学院的教授刘杰对它们之间的关系做出了阐释。

围绕数据与语言的人工智能

所谓网络数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。简单来说是从海量的数据中抽取出潜在的、有价值的知识、模型或规则的过程。数据挖掘作为一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。

与之相应,不得不提的就是人工智能。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学研究领域的一个重要分支,又是众多学科的一个交叉学科,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括语音识别、图像识别、机器人、自然语言处理、智能搜索和专家系统笔笔,人工智能可以对人的意识、思维的信息过程的模拟。人工智能包括众多的分支领域,比如大家熟悉的机器学习、自然语言理解和模式识别等。

但诺大的数据犹如汪洋,所想精准搜集、定点捕捞“数据”无疑于大海捞针。同时,刘杰还指出,文本作为互联网上的主要信息载体有着一个明显的特征,那就是写法随意,不受语言表达方式的限制,与正规的文章之间横亘着一条显著的界限。同时,自然语言对计算机加工来说,存在很多问题和缺点。自然语言词汇往往词义不确定,一词多义或一义多词的现象严重,语法结构也可能出现多种解释。另外,语言作为一种社会现象,处于不断变动和发展中,尤其专业词汇变化很快。这也直接造成了语言语义的识别困难,也就是自然语言处理的问题。因此,刘杰展开了将网络数据挖掘、自然语言处理、人工智能三者实现有机结合的研究。虽然该项研究困难重重,但背后蕴藏的价值却是巨大的。“综合网络结构和文本信息,能够更好地理解语义,准确完成知识发现、人机对话、智能问答、舆情分析等诸多人工智能任务。”刘杰介绍道。

随着自然语言处理在计算机领域广泛地应用,同时因为人工智能的诞生进化,算法、算力、大数据研究日趋成熟,自然语言处理方向也迎来了新发展,因此,自然语言处理的“新技能”也在不断研究开发与升级中。例如电商的“对话机器人”以及虚拟客服等在服务领域的应用,机器人根据“会话”运用自然语言算法去阅读理解和交互,在准确理解人类语言的基础上,还能够生成自然的语言回复。语言能力是人类与动物之间最大的区别之一,这种独特的智慧形式,也促使自然语言处理成为人工智能发展的重要一环。对自然语言理解、语义的形式化处理和推理判断等重大研究课题的深入探索,将会为人机信息交流提供新的强有力的语言工具,并最终为人工智能的推广应用带来一个全新的时代,在计算机的发展史上,这将是一个重大的突破。

多模态数据的结合

经过多年在国内外的潜心学习与研究,刘杰积累了大量丰富的学习经验经历。同时,他还在国内外许多优秀的科研学者身上学到了科研方法、治学态度,还扩宽了研究思路。在校内,他勤恳地开展科研工作;在校外,刘杰在工业界研究接触到了许多不同的科研风格。在高校与企业的双重熏陶锻炼下,刘杰的基础学习与研究到了夯实,并极大地锻炼了自身的科研能力。

学成之后,刘杰选择回到南开大学,并在任教后踏上了独立科研的道路。刘杰先后主持了“基于深度学习的结构化预测模型研究”以及“基于跨模态的网络表征学习”等国家自然科学基金项目。其中,“基于深度学习的结构化预测模型研究”国家自然科学基金项目作为刘杰个人的首个研究项目,意义十分不同。刘杰选择以深度学习为手段去研究序列型数据建模。该项目与视频内容的动作识别、自然语言的关键信息识别等任务的联系十分紧密,这也为他的后续工作的开展拉开了序幕。

“基于跨模态的网络表征学习”项目是刘杰最新开展的自然科学基金项目。该项目的关键词为“跨模态”,即网络数据从单模态转变为多模态。而所谓模态,如图像、文本、声音等具备结构或属性的信息,每一种代表一种模态。不同模态信息之间并不是独立的,而是存在语义上的互补。刘杰及其科研团队为了有效提升表达的质量,将采用合理的手段来融合多模态信息,也就是将图像、文本以及声音等多种模态结合,将它们综合体现在一个模型里,但这并非一件易事。

任何事情的发展都是螺旋上升的,刘杰及其科研团队针对该问题展开了长期的研究。由于研究长时间没有突破口,刘杰开始尝试转换研究思路,从另一个研究角度出发,跳出原有的局限,突破研究瓶颈。“如果将网络数据转换为不同模态下的网络,将模态转化视作语言的翻译,就能够利用机器翻译的思路,从而设计一种自我翻译的网络表示学习模型来解决问题。”刘杰介绍道。最终经过实践检验,刘杰采取的思路和办法十分有效,成功解决了该项难题,并得到了国际的认可。

算法、模型在企业问题上的应用

前沿应用是基础研究的出发点,理论基础是实际应用的落脚点。刘杰说道:“我通常在一个点或者若干个关键点上研究理论和前沿应用。基础理论帮助我快速理解前沿的应用,更好地解决问题。反过来,应用也是一种导向,让我知道社会中具有商业价值的需求在哪,我该朝着怎样的理论方向去研究。”对刘杰来讲,理论和应用就像人的两条腿,如果想要走得由稳又远,二者便缺一不可。

因此,刘杰认为,研究人员不仅需要关注前沿研究进展,还需要重视理论与产业的融合。只有将理论成功地运用到实际,才能在最大程度上实现研究的价值。“如何将企业实际问题转化成一个可以用模型、算法来解决的理论问题,这其中不止涉及一个问题,而是很多问题。”刘杰说道。

针对于此,刘杰认为首先要明确企业应用问题,深入到各个部门了解情况,站在理论研究的背景和基础条件上听意见,发掘工作特点,找到问题症结,而不是简单地走流程。其次是问题的转化与建模,将发现的应用问题转化为计算机算法所对应的问题,进一步实现算法、程序的搭建。

科技飞速发展,虽然人类社会距离完全的智能化还有段距离,但数据分析、挖掘和模型预测已是大势所趋。刘杰也将会为人工智能与多行业的结合而继续添砖加瓦,发光发热。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章