由于大数据涉及的内容十分庞杂,很多业务口径,即使是市场人员也不一定能够说清楚。举个例子,王小强要计算昨天彩铃的收入是多少。那么什么样的用户算是彩铃用户?是指订购了彩铃业务的用户,还是指使用了彩铃业务的用户?所谓收入是指应收收入还是实收收入?这些不同的口径会导致计算结果相差甚远,而王小强可能也无法完全说清楚自己需要的统计口径。
一旦确定了口径之后,还要保证数据准确,这里也有时间窗口的问题。例如,昨天的时间是指到夜里12点吗?那么那些12点还没有完成批价的收入是否算?……
好在口径确定后,就可以比较相对值,就可以看出彩铃市场的真实变化。
同样地,在大数据处理过程中,会产生很多数据质量问题,80%都是这种口径差异导致的。所以,市场人员在看到结果数据时,有时会质疑数据是否准确;而数据分析师也要正确面对这种质疑,用技术手段证明自己手里的数据没有错误,其分析结果是真实可靠的。
在大数据投入使用初期,有时也会出现“假数据、真分析”的状况。这种假数据的出现,有很多原因,主要是缺乏检测稽核手段。一些数据源提供方有时会有意无意地提供一些改进后的数据,“包装”自己的业务业绩。
在大数据建立之初,就要考虑这种数据质量的监控问题,通过多维度、多角度的数据检测规则,及时识别造假数据。
留言与评论(共有 0 条评论) |