HashData助力企业构建数据分析新范式

近年来,随着数字经济的发展,作为大数据底层支撑的数据库管理系统在企业数字化转型中正处于前所未有的重要位置。几乎所有的企业级数据、终端数据和边缘设备数据,都需要通过数据库系统的管理和分析才能够赋能上层应用或企业决策,发挥其最大的价值。

面对日益增加的数据规模和数据类型多元化的发展趋势,企业数据分析复杂度不断提升,传统MPP数据仓库平台,在资源弹性、成本等方面已经很难适应企业业务需求。

近日,HashData解决方案架构师吴昊通过在线直播的方式,与网友分享了大数据时代数据库技术的发展和变革。

吴昊介绍,数据库技术的发展始终随着企业业务需求的变化而演进。当前,随着云计算技术的普及,云原生数据库应运而生,基于云原生架构的数据仓库正成为越来越多企业的选择。

以下为直播文字实录摘选,与大家共飨:

HashData数据仓库总体架构

HashData助力企业构建数据分析新范式

HashData数据仓库采用以Snowflake、Databricks和Google BigQuery为代表的业界领先的云原生大数据系统设计理念,围绕着对象存储和抽象服务构建,通过元数据、计算和存储三者分离、多集群共享统一数据存储层的架构,最大限度发挥云计算优势,利用云平台的弹性+分布式的特点,实现快速部署、按需伸缩、不停机交付等,大幅降低企业进行大数据分析的门槛。

作为一款企业级云端数据仓库,HashData融合了MPP数据库的高性能和丰富分析功能、大数据平台的扩展性和灵活性,以及云计算的弹性和敏捷性,提供了传统解决方案无法比拟的高并发、易用性、高可用性、高性能和扩展性。

HashData助力企业构建数据分析新范式

HashData的元数据服务通过全球可访问的分布式系统提供,负责数据持久化的对象存储通过RESTFUL接口提供数据访问能力,中间的计算层则实现了完全无状态化。

HashData与传统MPP数据库比较

与传统MPP架构数据库相比,HashData具备以下优势和特点:

1.秒级的扩容能力

HashData助力企业构建数据分析新范式

传统的 MPP 采用紧耦合设计,在扩容时,需要对磁盘内全部数据进行读写,操作繁琐,对系统IO消耗大,扩容周期长,对业务影响较大。

HashData得益于存算分离的架构,通过一致性哈希来避免数据重新逻辑分组,通过共享存储避免数据重新物理分布,可以实现集群的秒级扩缩容。

2.消除数据“孤岛”和冗余

HashData助力企业构建数据分析新范式

传统MPP在使用过程中,随着数据量的增长,每个集群的数据都保存在计算节点本地磁盘,集群之间的数据无法做到有效共享,形成“数据孤岛”现象。同时,大量数据拷贝操作,造成数据严重冗余。

为避免出现“数据孤岛”和冗余,HashData采用共享存储架构,任何一个计算集群都可以去访问同一份数据,所有集群共享同一份元数据,彻底消除“数据孤岛”和冗余,确保数据的实时性、一致性。

3.高度弹性的并发能力

HashData助力企业构建数据分析新范式

传统MPP数据库的每个计算节点都会参与到每条查询的执行中,系统支持的并发查询数量由单个计算节点的硬件资源决定。理论上来讲,可以通过增加集群规模提升并发查询的数量。但在实际使用过程中,扩大集群规模只是降低了单条查询的延时,不能提高并发查询数量(有时候因为调度的开销,甚至可能比原来慢),效果微乎其微。按照我们的经验,传统MPP架构的并发量其实非常有限。

HashData由于采用云原生架构,多个集群共享统一的元数据、统一的数据存储,集群间不竞争CPU、内存和IO资源,可以根据业务需求无限地创建集群。为了提高并发数量,只需要增加计算集群,来满足弹性、高并发的要求,代价显著降低。

4.具备自愈功能的高可用

HashData助力企业构建数据分析新范式

传统MPP架构数据库主要通过副本的方式,来保证系统的可用性。这样做的代价是,一旦其中一个节点出现故障,任务会调度到Mirror节点,对系统性能造成影响。同时,新节点替代失败节点,数据需要从Mirror节点同步到新节点,导致Mirror节点负载增加,成为系统瓶颈;此外,新节点的数据恢复窗口很长,运维压力非常大。

HashData云数仓将数据存储在共享存储上面,计算节点与数据块的对应关系可以动态调整。不存在所谓的Mirror节点,因而能够实现分钟级新节点恢复,整个过程不需要任何的人工干预。

5.灵活的应用支持能力

HashData助力企业构建数据分析新范式

传统MPP架构数据库产品,每个集群运行作业基本固定,无法动态调整。HashData 云数仓可以按照业务需求动态调整集群规模,避免数据冗余和资源浪费,灵活支撑业务发展。

6.高效应对各种数据库运维难题

HashData助力企业构建数据分析新范式

传统 MPP 架构的数据库,动辄几百台甚至上千台服务器的规模,系统运维工作量大。

HashData可以根据业务需求,动态地对数据仓库集群进行纵向伸缩和横向伸缩。同时,由于是完全托管的云服务, HashData数据仓库承担了所有的集群资源配置、数据库管理、持续监控、健康检查、错误恢复、高可用和升级等纷繁复杂、极易出错的运维工作,让用户安心专注于业务分析上面。

发表评论
留言与评论(共有 0 条评论) “”
   
验证码:

相关文章

推荐文章