面向数字数据的社会科学研究——艾春荣教授谈大数据驱动下社会科学的发展

“在数字数据的驱动下,社会生产率、社会服务效率,科学发现能力都在悄然发生变革,这也正是数字数据的开发和应用已上升至国家战略并加以推动的重要原因”

在信息化时代,数据呈现爆炸式的增长,在此情景下催生了社会科学领域哪些新的应用?又将对追求高质量、高精度及因果关系的社会科学研究带来哪些机遇和挑战?人文社会科学的研究方式又会产生哪些变革与理论创新?“北京数据科学”公众号隆重推出“数道”系列访谈,不定期邀请数据科学与大数据领域名家谈数论道,把握数据科学领域最新动向。

本期嘉宾中国人民大学统计与大数据研究院院长、中组部“千人计划”国家特聘专家、教育部长江学者艾春荣教授为我们讲讲大数据驱动下的社会科学研究。

导读

采写:刘雅楠

策划:阮 敬

艾春荣

教授

1990年获得美国麻省理工学院经济学博士学位。现任中国人民大学统计学教授,博士生导师,中国人民大学统计与大数据研究院院长,分别于2005年和2009年入选教育部长江学者、中组部千人计划特聘专家。

艾春荣教授长期从事数理统计学与经济学、金融学交叉领域的研究,在理论与方法研究和应用研究上,取得了令人瞩目的成果。已在Econometrica, International Economic Review, Review of Economic andStatistics, Journal of Econometrics, Journal of Development Economics, AmericanJournal of Agricultural Economics, Journal of Health Economics等经济学、金融学国际一流期刊上发表论文四十多篇。近几年来,他对中国经济也给予极大的关注,并在《经济研究》、《管理世界》、《管理科学学报》、《中国科学》、《经济学(季刊)》、《数量经济与技术经济研究》、《统计研究》等国内权威期刊上发表文章十多篇。

艾春荣教授研究内容涉猎广泛,涉及计量经济理论、统计学、实证金融、实证产业组织、卫生经济学、国际经济学等多个领域,他始终相信学科之间的交叉互通非常重要。

人物简介

艾老师,您能简单为我们谈谈大数据在经济学以及社会科学领域产生了怎样的价值吗?

大数据这个词容易误导大众,以为大数据一定是巨大的数据,其实不然,大数据准确的讲是数字数据,也就是digital data。它不仅包括传统意义上的数据,还包括文本、图像、视频以及音频等非结构化的数据。数字数据记录了人类社会、经济和科学活动的详细信息,这些信息如果被挖掘出来,定能帮助我们大幅提升社会生产率、社会服务效率以及科学科学发现能力。数字数据的价值在于数据驱动的发现。

具体到经济学,或者说整个社会科学中,数字数据包含许多有关个体行为(个体不仅包括个人,还包括厂商和政府等)的信息以及同个体相关的背景资料。从个体背景资料到个体行为之间有一个决策过程,背景资料是约束,决策的结果是行为,我们观察到背景资料和行为,但观察不到决策过程。大量的个体背景和行为数据,使我们能够挖掘背景与行为之间的关系,并据此分析和预测个体的未来行为。下面,我就厂商、消费者和政府的角度分别来举例说明:

(1)以前我们都将厂商看做是一个从投入到产出的黑箱子,其实厂商是一个很复杂的“过程”,整个“过程”包括原材料、采购、人员雇佣、组织生产、产品质量检验、产品销售等多个环节。因此,产出是投入和生产过程的函数。在大数据时代,我们可以很轻松的观察到生产过程中各个环节的信息,显然,投入和生产过程的信息,有助于厂商更好地组织生产,提高生产率;

(2)不同的消费者有者不同的诉求,这些诉求在经济学中通常以“偏好”表示,“偏好”是无法观察的,但观察到的行为数据包含个人偏好的信息,通过对消费者行为信息的分析,我们更多地了解消费者“偏好”,并据此制定出个性化的产品,在最大程度满足消费者偏好的同时也能避免资源的浪费;

(3)政府也是一个从投入到产出的个体,产出是社会服务,中间也有一个生产过程,政府的职能是,通过有效地组织投入和生产过程,提供最佳的社会服务。不同于企业,政府的产出是观察不到的,它的价值是由民众决定的。当下,民众可以通过互联网以文字、图片、音频视频等形式表达他们的诉求,政府通过分析民众的诉求,制定最优的资源配置方案、提高政府效率。

总之,从提高生产力到了解消费者需求,再到提高政府效率,大数据都起到非常重要的作用。

大数据技术在社会科学领域主要有哪些方面的应用?

数字数据对当前和未来的发现与创新正发挥着及其重要的作用。在科学研究领域,“数据驱动发现”已经成为“观测发现”和“理论发现”之外的第三个科学研究方法,并得到了非常广泛的应用。例如,在生物领域,“数据驱动发现”协助寻找基因组合,在天文领域,“数据驱动发现”协助寻找新的宇宙物质,在健康领域,“数据驱动发现”实现精准医疗等。在社会科学领域,“数据驱动发现”也有广泛的应用。美国《科学》杂志近期一篇文章指出,通过大规模数据的收集与分析,人们能洞见个体和团体行为的特征。在金融科技、商务智能、智能决策、审计、法律、舆情分析等领域,“数据驱动发现”已成为核心技术。在商业应用方面,数字数据作为颠覆性的技术,彻底改变了人们从信息中创造价值的能力,以及理解、诠释、满足大众诉求的能力。数据技术在无人机、无人驾驶、机器人、智慧城市、物联网、电子政府等领域都有着非常广泛的应用。

如您所说,数字数据在大量的累积,这会对追求高质量、高精度、因果分析的计量经济学产生怎样的影响呢?

数字数据提供的大量信息能帮助我们更好地了解个体行为,问题是,如何从这些信息中挖掘个体行为是计量经济学面临的挑战,传统的模型和方法逐渐变得不再适用,需要创新与突破,这反过来推动计量经济学的发展。

例如,传统计量经济学都是在研究小数据,并且都是在分析结构化数据。但面对现在这样大规模的结构化、半结构化以及非结构化的数据,传统计量经济学显得无能为力。可见,如此多样化的数据大大地拓展了计量经济学的研究范围。另外一个例子是数据质量。虽然在日常生产生活中累积了大量的数据,但是在这些数据中不乏有很多虚假的数据,这样就很难满足计量经济学对高质量数据的要求。因此,怎样甄别并避免这些垃圾信息,怎么从这些虚假数据中挖出有用的信息,是一个巨大的挑战,是未来计量经济学发展过程中需要着重思考的问题。

第三个例子是模型检验。计量经济学总是以一些前提假设开始,并认定模型是正确的。在实际应用中,前提假设是无法检验的,而且模型往往是不正确的。大数据的存在会有助于检验前提假设,提出更接近真实的模型。

最后一个例子是预测和因果关系。机器学习的一些算法,虽然对短期行为的预测非常见效,但对于长期的行为就很难进行预测了,这是因为这些算法没有考虑到个体行为,也没有考虑到内生性等问题。未来,将大数据技术和计量经济学方法有机的结合,是计量经济学发展的另一个机遇。

您一直以来都在致力于数据科学与大数据技术的学科建设和人才培养,同样想请您谈谈在相关方面的独到见解。

数据科学是以数字数据为研究对象的学科,它致力于培养下一代数据科学家和具有数据思维、应用数据技术提升创新能力的劳动力。一般来讲,数据科学家应具备运用统计工具分析大规模复杂数据的技能,因此数理统计学是数据科学大纲的核心部分;他们应该具备诠释非结构数据的能力,因此编程、数据挖掘、机器学习等是必修的课程;同时也应具备将结果清晰的展示出来的能力,因此可视化也应成为数据科学大纲的一部分;如果将分析的模型和优化与算法结合,形成智能决策系统或行动,大规模数据的优化与算法也应该是必修课之一。

鉴于对数据可能存在滥用和推断错误的可能,伦理也应该成为教育大纲的一部分。其他课程,如研究设计、数据库、算法、分布式计算、并行计算和云计算、自然语言处理等提供业界需求的数据技能课程,也是必不可少的。

最后,以团队的形式参与实际案例,并通过对实际数据的采集、清理、分析、传播、保存的全过程实践是数据科学不可缺少的重要体系。

除此之外,在像中国人民大学这样的高校,还应开设数据科学在金融、经济、管理、新闻、法学,社会与人口学等社会科学中的应用课程,这些课程应由数据科学家与社会科学学科领域的专家共同设计。

总之,数据科学是一门涉及多学科领域知识的交叉学科,但它并不是相关学科领域简单拼凑形成的,而是各相关领域深度融合后进而创新与发展的独立学科。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();