▍没有数据,我们是否无能为力?
首先,数据的来源是否清晰?无论是学术还是商业,在所有正式场合,使用数据都需要对来源做出说明;如果涉及到他人的研究,还需要注明引用的文献。数据来源关系到数据质量,当我们使用的是一份未经加工的原始数据,那么即使数据存在缺失、异常值,我们都可以通过对数据进行清洗和必要的修补,来满足使用需要。但假如我们拿到手的数据已经是经过他人处理的了,那么数据质量就是必须考虑的问题。
如果数据是来自于正规学术研究,一般都会有非常详细的数据说明文档和代码,但这种情况出现的比例并不算很高。更大的可能是,数据爱好者从各类自媒体或免费或付费,获取了处理好的数据包,比如下面这样的:
(某公众号的数据分享,在后文明确给出了原始的数据来源和具体的处理方法,以及使用数据需要标注出处时的引用格式)
对于这样的数据包,数据质量是否“可信”?很多人都会遇到这样的情况:分享者对原始数据的处理我并不满意,或者不适合我要做的分析,但我又找不到原始出处,最后只能在“使用处理不当的数据得到可能错误的结论”和“缺少数据无法开展分析”之间二选一。
此外,数据处理是否“可查”。你使用的数据真的能反映你想知道的问题吗?举个例子,收入数据非常难以统计,需要依赖一定规模的调查,同时还可能遭遇低报瞒报等问题。因此,不少研究者会用“招聘薪酬”这类高频数据,替代统计局发布的详细分位数家庭收入。但是,如果不进行复杂的去偏性矫正的话,这种替代在有些情况下是不合适的。比如说:“是不是所有岗位都会选择在网上发布招聘呢?”
基于以上种种问题,即使是互联网巨头公司发布的数据,也偶尔会遇到尴尬。
某知名互联网企业BK曾发布了一个住宅空置率研究,由于“填写人的主观判断存在的偏差,调研样本和程序不够规范,覆盖范围不够全面,部分调研问卷数据采集有误,导致数据不准确。空置率口径无法定标准,本次调研以“房屋是否存在连续三个月无人居住”为判断指标,不能充分反映真实情况。“等原因,上线仅6天就不得不主动撤回。
▍对“能用”的数据,我们有什么期待?
去除上节所谈到的”不可用“的数据,在现实中,“可用”的数据其实非常非常多,既有统计局官方定期发布的各类数据报告,也有知名学术机构定期完成的各类调查,部分有条件的研究者,还可以获取部分高频数据进行补充。那么为什么还是有非常多的数据使用者感到,数据常常不能合乎使用者的心意呢?
使用者对于一份数据的期待是怎样的?
首先是及时性,这代表了数据在时间维度上的滞后程度。例如,我们在证券交易平台上看到的各类金融产品的实时价格,仅以秒或分钟计算。而统计局提供的各类国民经济指标,往往是月度、季度或是年度更新。而一些更加复杂的数据,比如经济普查、人口普查等,每5-10年才会进行一次,而且从普查执行到最终详细数据的发布,中间也要间隔2-5年的时间。
第二是全面性,这代表数据在覆盖群体方面的广度。各种普查可以涵盖全体国民,而更多的调查数据,则基本只针对了某些特定的群体,例如流动人口监测数据,就只针对常住地与户籍地不一致的流动人口;又例如失业率调查,则主要针对劳动年龄段且本身有就业意愿的人群。
第三个角度是深入性,这代表了数据所包含的信息丰富程度。如果我们把一份数据理解为一张表格,每一行都是一条观测值,每一列都是一个字段的话,字段的数量大体可以代表数据信息的丰富度。
当然,并不是时滞越短、覆盖人群越广、字段数量越多的数据,就一定更合适。数据及时性、全面性和深入性,需要和使用数据的场景适配。例如,金融产品实时成交价格,以分或秒为单位更新,对于一般用户的查询来说足矣,但对于量化交易等场景,可能还远远不够。又例如,当我们的目标是反映一个城市16-24岁青年的就业情况时,全口径调查失业率未必合适,反而一些针对性的调查数据更有启发。
▍对数据“提要求”,还得摸摸自己的腰包
寻找合意的数据,其实就是在可接受的预算内,去寻找及时性、全面性和深入性更加符合需求和应用场景的数据。
去年知名杂志《Nature》刊发了两篇关于社会资本的研究,研究者使用了210亿对脸书用户好友关系,涉及到大约7000多万用户(25-44岁),并识别了用户的社会经济特征、所在地等信息。更令人惊叹的是,这两篇研究的数据收集于2022年5月底,距离论文公开仅仅只有2个月左右。
如果从及时、全面、深入的维度来说,这份数据堪称完美。但这份研究,其背后付出的成本也非常可观:参与这两篇论文工作的作者就有二十多位,其中有很大一部分来自脸书公司,提供数据支持,更不要提背后没有署名的无数数据工程师们的努力投入。
马克思说过,价值是凝结在商品中的无差别的人类劳动,这也是数据具有价值的本质原因。尽管人们谈起数据这一生产要素时,总是聚焦于其可复用性带来的便利上,但使用者们也绝不能忽略获取数据的成本。无论是及时性、全面性、还是深入性,在任意一个维度上的哪怕一点微小的数据质量的提升,都需要投入资源,并产生额外的成本。因此数据可以被认为是一种”资产“。
对于绝大多数数据工作者来说,对数据提要求之前,还得摸摸自己的腰包。
▍公共数据供应的尴尬:任务or服务?
回到最初的问题,数据从哪来?无非是两个来源:公共数据和商业化数据。
就全社会而言,数据像土地一样,是一种基础设施;但同时又因为其高度可复用的性质,具有一定公共品的特征。因此,在世界上大部分国家,政府或公共部门提供的公共数据,都是大众主要的数据来源。
当然,各个国家的公共数据提供的怎么样呢?这个话题就一言难尽了。
感兴趣的话,可以参看这篇推文。
(美国国家统计局与中国国家统计局官网)
由于我国国情的特殊性,和西方国家横向对比并不完全合适。
但相信很多读者和数据团一样,在使用我国的公共数据时,总会遇到各种尴尬。
比如,总得一遍一遍汇总整合不同来源的公共数据。
举个例子,数据团曾经做过一次研究,目标是了解房屋供给是不是能够满足需求,从而进一步对房价走势形成自己的判断时,这个过程需要至少三个来源的数据:
1. 这个城市的人口情况、结构、空间分布,这可以从该城市的统计部门查询当地的统计年鉴。
2. 这个城市的土地出让情况,这可以从当地规划和国土资源部门去找相应数据。
3. 这个城市的房屋出让和存量等数据,可能需要去住房与建设部门去找相应数据。
1. 国家统计局的各种数据和公报的空间颗粒度较粗,需要地级市层面的数据,往往还是要去各地市自己的统计局官网查询。 2. 不同地方的统计局,其官网架构和查询数据的路径并不存在一个完全一致的模板,这使得看上去是重复的操作,在每个城市都有不尽相同且难以描述的体验。
3. 有些部门的网页最初设计的时候没有充分考虑实际使用情况,导致一些信息显示不全的问题。
(上海市统计局在网页设计的时候,肯定没有想过一个列表会这么长,以至于没法拖拽页面看到后面的内容。)
▍市场能为数据供应做些什么?
(2022年,各城市房产数据的“冠军们”)
▍数据服务商业化:高昂的交易成本
对卖方来说,是否有客户了解自身数据的真实价值,达成真实成交?交易过程会不会很复杂,需要额外的商务和售前团队介入?成交后钱款是不是能及时到账? 对买方来说,数据是不是有高可用性,性价比不错?交易过程中卖家会不会跑路?数据交易过程和使用体验是否便捷?数据交易完成后,卖家是否有后续的服务? 在整个交易中,买卖双方还共同关心交易的隐私性,是否会被竞争对手知晓自己正在进行一项数据交易?