如何评价数据质量
数据质量是数据分析结论有效性和准确性的基础也是最重要的前提和保障。
那么如何评判数据质量的好坏呢?
以客户数据来举例:
对于管理客户联系信息的人来说,高质量的数据是指准确的如地址、电话、邮箱之类的客户联系信息;对于客户经理来说,高质量的数据是指准确的客户交易、交往记录。不同的应用场景,对数据的质量要求都是不同的。因此,数据质量标准必须根据每一个具体的案例来定义,且是以满足应用要求为目的。适合使用的数据就是高质量的数据。数据的质量是以是否符合使用数据的要求作为判断标准的。
在进行数据质量评估时,要根据具体的数据质量需求对数据质量评估指标进行相应的取舍,一般可以通过以下几个指标来评估,
如图1所示:
图1:数据质量评价标准
1、准确性
准确性是指数据与其描述的客观实体的特征是否一致。例如一个男性乘客,但是在客户资料中记录的性别却是女。
2、及时性
及时性是指数据从产生到可以查看的时间间隔,也叫数据的延时时长。如果数据延时超出统计的要求,就可能导致分析得出的结论失去了意义。例如销售日报,用于要求每天统计T-1的销售数据,但是数据只能提供T-2,显然达不到用户的要求。
3、一致性
一致性是指存储在不同的系统中的同一个数据,是否存在差异或相互矛盾。例如航班始发站,在不同系统中记录的应该是同一个站点。
4、完整性
完整性指的是数据信息是否存在缺失的情况,数据缺失的情况可能是整个数据记载缺失,也可能是数据中某个字段信息的记载缺失。例如一个航班一共有180名旅客乘坐,但是旅客名单却只有170条记录。不完整的数据所能学习的价值就会大大下降,也是数据质量最为基本的一项评估标准。
5、规范性
规范性用于度量哪些数据未按统一标准存储。标准指的是一项数据存在它特定的格式,例如手机号码必定是13位的数字,IP地址必定是由 4个0到255间的数字加上”.”组成的。
6、唯一性
唯一性用于度量哪些数据是重复数据或者数据的哪些属性是重复的。
例如一个人只能有唯一的身份证号码。
▼
总结
▼
数据质量评价是从数据综合应用的角度考虑,对数据的采集、存储和产出进行全面的考察和评价,从而提高数据的可信度和有效性,为决策提供更有利的基础。它不同于普通意义上的质量评估,而是从企业对数据应用的角度,从企业管理需求的角度出发,对企业的数据进行深层次的分析,再对数据流进行必要的调整,以适应企业管理的实际要求,而不仅仅是要求数据准确那么简单。
- END -
本文是“东航IT百分百”原创,转载需注明出处
转载须保持以上所有内容完整。
文/ 顾佳骏
留言与评论(共有 0 条评论) |