大数据存储和成本管理

1数据压缩

在分布式文件系统中,为了提高数据的可用性和性能,通常会将数据存储3份,这就意味着存储1TB的逻辑数据,实际上会占用3TB的物理空间。目前可以采用archive压缩方法,它是具有更高压缩比的压缩算法,可以将数据保存为RAIDfile的形式,数据不再简单的保存3份,而是采用RAID(6,3)格式的文件,即6份数据+3份校验块的方式,这样能够有效的将压缩比为1:3提高到1:1.5,大约能够节省下一半的物理空间。当然,使用archive压缩方式也是有一定的风险,如果某个数据块出现损坏或者某台机器宕机坏掉了,恢复数据块的时间将要比原来的方式更长,读的性能会有一定的损失。因此,目前一般将archive压缩方式应用在冷备数据的存储上。

2数据重分布

目前采用基于列式存储的方式,由于每个表的数据分布不同,插入数据的顺序不一样,会导致压缩效果有很大的差异,因此通过修改表的数据重分布,避免列热点,将会节省一定的存储空间,目前我们主要通过修改distributeby和sortby字段的方式进行数据重分布。

数据重分布效果的波动比较大,这主要跟数据表中字段的重复值、字段本身的大小、其他字段的具体分布有一定的关系,一般我们会筛选出重分布效果高于15%的表进行优化处理。

3存储治理优化

目前已有的存储治理优化项有未管理表、空表、最近60天未访问表、数据无更新无任务表、数据无更新有任务表、开发库数据大约100GB且无访问表、长周期表等。在这个体系下,形成现状分析、问题诊断、管理优化、效果反馈的存储治理项优化的闭环。通过这个闭环,可以有效地推荐数据存储的优化,降低存储管理的成本。

4生命周期管理

生命周期管理的根本目的就是用最少的存储成本满足最大的业务需求,使数据价值最大化。

4.1周期性删除策略

4.2彻底删除策略

4.3永久保存策略

4.4极限存储策略

4.5冷数据管理策略

4.6增量表merge全量表策略

4.1.1通用生命周期管理矩阵

随着业务的发展和不断的数据实践,我们慢慢摸索出一套适合大数据生命周期管理的规范,主要通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。

目前我们对历史数据进行了重要等级划分,主要将历史数据划分为P0P1P2P3四个等级,其具体定义如下:

P0:非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团的KPI等。

P1:重要的业务数据和重要的应用数据,具有不可恢复性,如重要的产品业务数据。

P2:重要的业务数据和重要的应用数据,具有可恢复性,如交易线ETL产生的中间过程数据。

P3:不重要的业务数据和不重要的应用数据,具有可恢复性,如某些产品报表数据。

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();