【独家·前沿】大数据与AI如何用于社会科学?文继荣教授把原理都讲清了

本文大概2000字,读完共需3分钟

当前大数据、人工智能、深度学习这些词比较热,今天借此机会与大家分享一下。不会讲太多理论,尽可能通俗。

中国人民大学信息学院院长文继荣教授

一、科学的核心问题

无论是自然科学还是社会科学,解决问题的基本原理可以用一个简单的函数表示:“Y=F(X)”。对于一个输入X,需要找到一个模型(函数)F,然后产生一个输出Y。其实我们在学习、研究、工作、日常生活中都在找类似的模型——换句话说就是事物的一般运行规律和法则。

模型有着重要的作用。我们找到合适的函数(模型)F,你给出什么自变量,就能得到相应的因变量。

二、解决问题的三种方法

1. 传统模型方法

通过观察少量的事物,通过少量的自变量和因变量对(X,Y),抽象得到一个一般化的模型Y=F(X)。例如牛顿通过对少量事物的实验、分析和观察,就能抽象出重要的物理规律。模型最重要作用的是缓解了样本的不足,可以通过少量的样本推断到一般情况,我们把这叫泛化。

2. 大数据方法

我们一直在各个领域探寻简单优美的模型F。但是这个方法不是万能的。尤其在一些复杂的像社会科学领域,比如股市预测等。不只是Y=F(X)这两个变量。股市里有成千上万人在里面博弈,每个人都有自己的想法,买进卖出。所以要寻找到合适的模型存在很大的挑战,尤其在社会科学研究方面。我自己的深刻体会是,其实社会科学的很多问题比自然科学要复杂。包括经济、金融等的问题都很复杂,相关模型构建很有挑战性。

大数据时代给我们提供了解决上述问题的新途径。当数据多到一定程度,我们对一些以前需要依赖模型解决的方法,可以做到不用模型了,可以直接用数据解决。

如上图,Y=F(X)。传统方法要找到通用的X到Y的函数F。但是如果这个F特别难找,比如里面有几万个变量,函数的形式会特别复杂。我们可以绕过模型F去搜集大量的X和Y的对应。搜集到足够多的时候,你就可以直接拿X去匹配相应的Y(见下图)。

F(X)就像一个黑箱,我们原来想搞清楚黑箱里面是什么,但如果实在搞不清楚里面是什么的时候怎么办?我们可以搜集海量的输入输出数据,到一定程度可能所有的X和Y我都有了。这个时候我就不用知道黑箱里面是什么,因为我只关心一个X它对应的Y是什么,我不关心Y是怎么产生的。这是大数据方法的本质。所谓的大数据方法是充分利用了计算机最强的两个能力:记忆力和计算力。计算机在记忆力和计算力上远远超过人类,人与它是完全没有办法比的。

3. 深度学习方法

大数据方法有很多成功的应用。但是这种方法不能处理数据覆盖不到的情况,即对于一个给定的X,当样本数据里其对应的Y时,我们就无法知道Y是什么。在这种情况下,我们仍然需要去探寻模型F。但与传统的模型方法不同的是,我们希望将大数据和模型方法结合,从海量的自变量和因变量对(X,Y)中学习一个复杂的模型F,这就是人们通常说的深度学习。

三、大数据与人工智能在社会科学中的应用

在中国人民大学,我们正在探索如何将大数据与人工智能技术与人文社会科学结合。这里举几个例子简单谈一下。

(一)与金融经济领域的结合。这些领域的结合是非常广泛的,而且越来越发挥着重要的作用。比如我们和经济学家们进行合作,他们想研究某个经济现象时,经常会遇到一个棘手的问题:很难找到研究数据。但基于大数据技术和自然语言处理技术等,我们能提取和解析出海量相关数据和信息,而且可以通过数据可视化技术等动态展示出来。这对金融经济领域的研究帮助是非常大的。研究方法的突破能帮助你发现很多以前难以发现的问题。

(二)与新闻传播学的结合。数字化传播过程中的大数据和人工智能技术应用已经非常普遍了,大家估计也接触过不少。举一个例子,在舆情监测方面。比如我们现在想了解 “雾霾”的舆情。对“雾霾”进行网络搜索,结果显示有500多万条,人工读完是不可能的。但是通过智能的大数据和自然语言处理技术,500多万条,瞬间机器就可以全部读完并给出分析报告。

(三)与历史学的结合。历史研究要面对大量的史料。历史学家每次要研究一个东西,比如研究税收,研究灾害,要看很多史料,费时费力。但我们可以用计算机对史料进行分析。比如灾害史,就可以通过人工智能技术从各个史料当中分析出历史上发生灾害的时间、地点、当时经济社会情况、是否引发暴动等相关各项要素等。基于此,我们可以把复杂的历史问题转换成数据分析问题,并且可以通过可视化直观展现出来。

(四)与法学的结合。法学也可以转变成基于大数据和人工智能的学问。例如我们通过学习近千万份的法律文书,可以让机器学会自动量刑、判案。也可以通过让机器学习海量案例,分析各类案件的发生规律、演变情况等。这对社会治理有着很重要的意义。

总的来说,社会科学中的研究对象是非常复杂的,大数据和人工智能技术在社会科学中的应用还处于比较基础的阶段。随着人工智能技术的进一步发展,特别是在自然语言处理等认知智能方面的突破,会对社会科学发展和人类整个社会带来深刻的影响。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();