来源:中关村产业研究院
近日,中关村产业研究院发布了系列关于湖仓一体技术架构的调研专栏。滴普科技以湖仓一体技术专家身份参与其中,并作为国内典型厂商,得到研究院的深入调研。
该系列专栏共分为五期短篇:
① 数智时代对数据治理能力的五大需求特征
② 数据管理技术发展脉络
③ 湖仓一体技术适应数智时代数据治理的六个典型特点④ 湖仓一体技术架构相关国内外代表性企业⑤ 未来数据治理趋势及建议1
数智时代对数据治理能力的五大需求特征数字经济发展大势之下,人工智能技术渗透应用之时,当前及未来对数据处理能力的需求会呈现出五类新特征,是传统数据仓库等技术架构难以满足的:
图:数智时代对数据治理能力的五大需求特征
(中关村产业研究院整理绘制)
一是智能化基础设施覆盖增加,IoT广泛链接带来的数据量暴涨
如工厂数字化转型中涉及到海量智能设备触点以及高采集频率累计的数据,IDC预测到2025年,全球将产生175ZB的数据(以2018年为33ZB为例,复合年增长率为27%),49%的数据将存储在公有云中,数据存储市场规模将达到346.9亿美元;
二是非结构化数据积累量暴增
相关调研显示,企业内部80%都是非结构化数据,如此量级数据却只占整体使用率30%,面向人工智能亟需增强对非结构化数据的处理能力;
三是AI应用场景对数据实时性、按需性且高质量反馈的需求
如工厂数字化转型针对时序数据要求具备高度的流式计算能力,物联网尤其是工业物联网的发展,对机器和产线设备产生数据的管理和高效使用成为工业生产提质增效、精益求精、智能管控的重要有效手段,而随着工业设备所产生数据的频率更快、采集时间更密集、测点更多、数据量更大等特点,工业AI场景需要有实时性更好处理时序数据更强的能力;
四是对AI计算框架兼容性能力的要求提升
随着人工智能应用场景的扩展以及与众多的学科和领域交叉融合,对AI的计算框架也提出了更多的要求,包括最大化实现编译优化、更好的利用高算力、多任务的支持、模型可信赖等需求,AI计算框架正向着全场景、超大规模AI、安全可信等方面深度发展;
五是对具有模型开发和机器学习全生命周期平台化能力的要求提升
企业对于数据智能服务认知的不断加深,如何将数据分析服务与机器学习服务无缝集成,为更为广大的数据研发和分析师等用户提供更加智能易用的产品服务尤为关键,机器学习平台与大数据平台深度融合使得性能、自动化、智能化水平不断提升,同时也带来了新的挑战,包括更好的AI与大数据之间的安全隔离机制、机器学习原生代码的无缝对接、从数据准备/模型构建/开发到生产的全生命周期平台化的框架融合、预置算法和快速启动等。
目前,传统的数据治理技术架构难以完全满足上述五类特征,而由Databricks提出的Lakehouse(湖仓一体)架构与数智时代数据治理需求的适配潜力较大。依据Databricks公司对Lakehouse 的定义,湖仓一体是一种结合了数据湖和数据仓库优势的新范式,在Gartner 2021年度数据管理领域的成熟度模型报告—Hype Cycle中,「湖仓一体」(Lakehouse)与Edge Data Management、Intercloud Data Management、Active Metadata等新兴技术一起,成为了首次进入成熟度模型的五个新军之一,备受业界关注。
2
数据管理技术发展脉络图:数据管理技术发展脉络
(中关村产业研究院整理绘制)
上世纪60年代后期,数据管理技术进入数据库阶段。数据库克服了人工管理阶段和文件系统阶段的缺陷,可以提供对数据更高级、更有效的管理。在这个阶段中,程序和数据间的联系通过数据库管理系统(DBMS)来实现。
(一)数据仓库(Data Warehouse)
1990年数据仓库概念被提出。数据仓库是一个面向主题的、集成数据的、相对稳定的、包含历史数据的数据集合,可以广泛应用于经营管理过程中的决策制定。数据仓库主要基于联机事务处理(OLTP)中累积的大量资料,通过数据仓库理论特有的资料储存架构,实现系统的分析整理,支持各种分析方法,如联机分析处理(OLAP)、数据挖掘(Data Mining)等进行,进而支持决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助决策者从大量资料中,快速有效地分析出有价值的资讯,最终构建商业智能(BI)。
数据仓库技术的出现,使得少量、结构化的数据可以实现良好的分析与处理,但许多现代企业必须处理非结构化数据、半结构化数据以及种类繁多、时效性强、存储量大的数据,数据仓库并不能很好地解决这些需求。
(二)数据湖(Data Lake)
2000年后,云计算快速发展,几秒钟内即可完成对数万条数据的处理,实现强大的网络服务,但随之而来的是非结构化数据任务亟待解决。2010年,分布式流处理手段被广泛采纳,伴随移动互联网兴起,大数据厂商提出了数据湖概念。亚马逊定义数据湖是一个集中式存储库,允许用户以任意规模存储任意结构化或非结构化数据。微软认为数据湖以原始形式读取和存储大量数据,因其开放性和可扩展性架构,可以在不损失真实性的情况下容纳任何来源、任意类型的数据。数据湖可以使不同格式的原始数据汇聚(包括来自于关系型数据库中的结构化数据(如:行和列)、半结构化数据(如:CSV、日志、XML、JSON)、非结构化数据(如:Email、文档、PDF等)和二进制数据(如:图像、音频、视频)),无需预定义模型即可为大数据分析、机器学习、预测分析等提供支持。数据湖虽然适合存储海量数据,但有些缺陷无法避免:数据湖无法面向事务进行处理,无法提高数据质量,因缺乏数据一致性,使得输出结果几乎不可能被混合读取和分析,以及无法实现流批处理。(三)湖仓一体架构2020年,为提供一体化数据平台,一种新的开放式架构湖仓一体(Lakehouse)出现,它结合了数据湖和数据仓库的最佳元素,是新一代大数据分析的基础设施。现普遍认为美国大数据软件公司Databricks最先提出湖仓一体架构,他们将其定义为:一种结合了数据湖和数据仓库优势的新范式,直接在低成本存储的数据湖上实现与数据仓库类似的数据结构和数据管理功能。数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。湖仓一体的实现路径主要有两种。一是在数据仓库的基础上实现数据湖的特性,一般方案是在数据仓库中建外部表,代表厂商是美国的Snowflake;二是在数据湖中提供与数据仓库中类似的数据结构和数据管理功能,一般方案是实现多版本并发控制等,代表厂商是美国的Databricks。两种实现路径均面临相同的问题,如数据如何打通、如何保证元数据一致性、湖和仓上不同引擎之间数据交叉的引用问题等等。(四)相关技术架构特点数据湖和数据仓库作为大数据系统的两条不同演进路线,各有优势和劣势。数据湖面向初创用户友好,用户未明确业务逻辑时,可以将海量数据全部存于湖中,以待后续处理;数据仓库因在前期定义了数据规则,后续可操作性强,成长性更佳。然而,在数据仓库架构下,无法存储大量的非结构化数据,更无从谈起对这些非结构化数据进行机器学习等人工智能应用,以至于难以为业务决策提供有效的预测。此外,随着业务增多,企业需要为每一个业务分别建立一个数据仓库,“数据孤岛”现象出现,同时还要负担高昂的运维成本。数据湖架构虽然从一定程度上解决了上述问题,但同时也引入了许多新的困难:因数据湖不要求统一数据口径,所以不同需求的用户从数据湖读取数据时,可能会遇到数据一致性的问题;数据湖为批处理模式,无法实现数据对业务的实时支撑和业务对数据的实时操作;因湖中数据维度和颗粒度差异较大,无法在数据湖之上直接构建BI应用;储存和维护不同版本数据的运维成本过高,对业务赋能的性价比较低;元数据的管理和操作随着数据量的增长而越来越困难。这些问题都直接或间接严重影响到了数据的质量,后续的操作愈加困难。目前大部分企业选择两种架构结合使用以满足不同的数据需求。使用数据湖统一存储所有数据,为数据科学家、数据分析师、数据工程师等直接提供机器学习等人工智能服务;同时将数据湖中部分数据ETL处理后存入数据仓库,为前端业务分析人员提供商业智能、决策支持等服务。同时启用两套数据系统的运维成本较高,数据的一致性、安全性上也存在潜在隐患,数据质量难以保证。Gartner曾在2020年发布的报告Market Guide for Query Accelerators中介绍,数据仓库期望有数据湖的可扩展性,而数据湖则希望有数据仓库的企业级分析和管理能力。湖仓一体数据引擎技术应运而生。值得注意的是,从数据库、数据仓库到数据湖、湖仓一体,这些技术之间不存在淘汰或取代的关系,他们各自有独特的定位和擅长的业务场景,共同构成大数据时代的技术基础设施。
根据对市面上主流数据库厂商的调研,并结合沙利文(Frost & Sullivan)的观点,目前数据湖和数据仓库的边界正在慢慢模糊,兼具湖、仓特性的湖仓一体架构逐步成为主流,数据库厂商将接入更多的云服务厂商。
3
数智时代数据治理的六个典型特点
图:湖仓一体的六个典型特点
(中关村产业研究院整理绘制)
1、湖仓一体架构在很大程度上弥补了数据仓库和数据湖存在的问题,在数据治理和人工智能方面,解决了三个问题,加强了三个能力:
01 打通湖与仓库的壁垒,解决数据重复性问题。
如果一个组织同时维护了一个数据湖和多个数仓,这无疑会带来数据冗余现象,严重时甚至出现数据口径不一致的问题。湖仓一体架构下,数据湖成为数据仓库的数据源,数据仓中的冷数据可以转移至数据湖低成本存储,许多数据管道通常可以同时读取和写入数据,保证使用SQL时数据的一致性,统一了口径并去除了重复性,可在企业级应用中支持事务一致性处理。
02 解决数据停滞问题(Data stagnation),更好实现数据治理。
在数据湖中,数据停滞是最为严重的问题之一。用户轻易将大批量数据入湖,但如果没有专员进行维护和治理,很容易变成数据沼泽,最终导致海量数据无法赋能业务。湖仓一体的显著优点是可以对海量数据进行Catalog,这一特性更有效地帮助提升数据分析的时效性,支持数据的全生命周期追溯和管理。
03 实现存算分离,解决高昂成本问题。
数据仓库多通过降低冗余或整合异构数据源来做到降低成本,但由于其计算与存储耦合,架构上的每个节点有计算资源和存储空间,数据会横向分布到各个节点之间,计算的时候每个节点都只需处理位于这个节点上面的数据。该架构理论上速度很快,降低了数据在节点之间的传输时间,数据处理过程中不会出现争抢计算资源的情况。然而,这种架构下不能弹性分配计算和存储资源,随着数据业务的快速增长,用户在计算、存储性能上的扩展需求往往不同步,计算性能通常仅需要在负载高峰期间扩展,而存储性能一般需要长期、线性扩展。此外,增加或减少节点后大量数据需重新排布,可能会造成节点频繁宕机。大部分数据仓库无法实现存算分离,所以成本高居不下。数据湖通常使用大数据文件系统(如Hadoop HDFS)和Spark,在廉价的硬件上存储海量的数据,但对计算能力明显不足。
基于上述两种方式,仓与湖相结合成为最性价比方式。湖仓一体架构实现存算分离,存储和计算分别使用单独的群集,这样系统能够扩展到更多并发用户和更大数据量,一些云服务厂商的数据仓库也逐渐考虑向这方面转变。
2、湖仓一体架构在实时处理、团队协作方面有良好的表现,可以更好地支持AI训练与BI决策问题:
01 流批一体保证实时处理。
现在已经有越来越多的行业和技术领域需求大数据实时分析系统,例如金融行业需要使用大数据系统结合VaR (金融风险管理,value at risk) 或者机器学习方案进行信贷风控,零售、餐饮行业需要大数据系统实现辅助销售决策,各种IOT场景需要大数据系统持续聚合和分析时序数据等。湖仓一体支持端到端的流式计算,从而能够支持实时数据应用,用户不再需要专门服务于实时数据的应用程序,系统集成度更高。
02 消除孤岛加强团队协作。
数据分析师和数据科学家对数据的要求和数据存储介质的使用情况不同,数据分析师多使用数据仓库或数据集市来对已经分类的数据进行进一步处理和解读,而数据科学家与数据湖交际更多,他们多使用未经处理的海量数据来加以分析和建模。在一个组织内,这两个团队基于不同的业务要求,多分属于不同的部门,但同时使用了同样的数据源,有大量类似的工作。湖仓一体凭借其原生协作功能可以显著提高跨团队工作的效率,消除了传统方案中将分析、数据科学和机器学习分开的数据孤岛困境,进一步简化了数据架构,两个团队可以在同一数据架构上进行工作,避免不必要重复开发的同时,帮助团队触发更多的创新点。
湖仓一体架构支持更多数据格式,用于各种工作场景和不同的团队,使用的存储格式是开放式和标准化的,如Parquet格式,支持强制的Schema以及数据治理,星型模型或者雪花模型均可。此外,湖仓一体提供了多种API,包括机器学习和Python语言和R语言库,各种工具和引擎都可以直接访问数据,最大限度地提高灵活性,兼容程度较高,开源社区完善。
03 更好地支持AI和BI发展。
湖仓一体的价值不光在于湖仓关系的处理,还有更多环湖服务(比如多维分析、预测分析、数据科学、机器学习、大数据处理、决策支持等)可以为整个业务带来价值。湖仓一体可以从根本上简化企业数据基础架构并加速创新。过去,公司产品或决策中涉及的大多数数据都是来自操作系统的结构化数据。现在,许多产品都以计算机视觉和语音模型,文本挖掘等形式集成了AI。湖仓一体可提供数据版本控制、治理、安全性和ACID属性。湖仓一体架构可以直接在源数据上使用BI工具,减少陈旧度和等待时间,提高新近度,并且降低必须在数据湖和仓库中操作两个数据副本的成本。而且,使得BI工具也可以直接访问原始数据,帮助使用者快速溯源。此外,湖仓一体的用户还可以使用各种标准工具(Apache Spark,Python,R,机器学习库等)来处理非BI工作,例如数据科学和机器学习。
4
湖仓一体技术架构相关国内外代表性企业
01 国外典型企业:Databricks与Snowflake
Databricks是数据智能领域2021年获得融资额最高的公司,在8月30日胡润发布的《2022年中全球独角兽榜》中,Databricks以2500亿元人民币估值位居排行榜第七位。在湖仓一体架构上,Databricks与Snowflake代表着不同的技术路径与方向。两家技术架构差异如下:
图:Databricks与Snowflake产品技术对比
(中关村产业研究院整理绘制)
Databricks起源于学术界和开源社区,由Apache Spark™、Delta Lake和MLflow的创建者于2013年创立,是世界上首个提出云中湖仓一体平台的公司,提供自动化集群管理,为数据和人工智能提供了开放和统一的web平台。截至目前,Databricks最新市场估值为380亿美元。Databricks以Apache Spark开源技术为基础,创建了一系列蓬勃发展的开源项目,包括Delta Lake、MLflow、Koalas等。本质上,Databricks在帮助用户存储、清洁和可视化不同来源、不同格式的大量数据。
Snowflake于2012成立于美国,提供基于云的数据存储和分析服务,通常称为“DaaS, 数据仓库即服务”。Snowflake是第四代云原生数据仓库,采用存算分离的技术架构,开发的CDW支持计算、存储节点单独扩展,实现在查询计算时,不影响同步扩容或缩容,不发生延迟或中断。Snowflake采用量入为出(Pay As You Go)的付费模式,用户根据数据量与计算时间支付费用。Snowflake CDW将所有数据及负载集中到云原生的SQL数据仓库上,用户通过SQL运行查询、调用数据,对接Tableau等可视化分析软件,便可对各种结构化、半结构化数据进行分析。
02 国内典型企业
国内目前有数十家企业从事湖仓一体架构的相关数据治理工作:
注:排名不分先后
表:湖仓一体架构相关企业
(表源:中关村产业研究院结合公开信息整理)
代表性企业如网易数帆、滴普科技等,其路径更接近于Databricks。
图:滴普FastData
(内容:滴普科技,中关村产业研究院整理绘制)
以成立于2018年的滴普科技为例,其核心产品FastData基于Iceberg(Netflix开源,解决数据存储和计算引擎之间的适配性问题)、Flink(Apache开源的顶级项目,擅长处理无界和有界数据集) 和 Trino(由原Facebook研发团队开发的开源项目,针对OLAP设计的用于高效的分布式查询大量数据的分析引擎),进行技术优化,实现一套架构完成数据采集、转换、存储和分析的实时能力,可以帮助企业建立统一治理、流批一体、湖仓一体的云原生数据智能平台,实现海量数据实时分析。
此外,FastData为企业全栈数据运营管理能力,包括提供完善的数据治理体系和数据资源盘点工具;提供数据资产管理工具对数据资产进行可视化管理、加工及服务,实现对企业业务场景的数据化,并提供数据资产的编制和运营能力。
5
未来数据治理趋势及建议
面向未来,以湖仓一体为代表的未来数据治理将呈现以下三点趋势:
01 多场景融合,加速向通用人工智能转型。
目前数据库市场定制化产品较多,随之而来的是较高的成本,一些拥有价值数据的中小企业很难采纳价格较高的“数据+AI”产品。随着数据存储产品的演变,通用型产品出现,更多商业化方案和赋能计划在数据的支撑下实现。
02 存算分离,为用户提供更多的使用选择。
传统方式下,存算高耦合,用户即使没有计算需求,但困于数据量庞大,仍需要支付高昂的存储费用。据观察,众多数据库厂商逐步向存算分离模式靠拢,通过解决弹性伸缩问题,以给用户最佳解决方案。
03 湖仓一体成为新的数据基础设施底座,逐步实现海量大数据的联机交易和联机分析。
在数据分析领域,湖仓一体代表未来的发展趋势,同时也是全流程流批一体化的基础。这种架构下可以更好地应对 AI 时代数据分析的需求,在数据存储格式、数据处理和分析以及面向 AI 的演进等方面,显著领先于其他数据库。
鉴于以上特征,研究院提出如下建议:
01 建议倡导软件开源,强调建设基础层生态的重要性。
软件开源是加速创新和吸引用户的通用办法,用户可以快速的帮助科技公司完善和构建产品,如Facebook受益于技术粉丝对其代码的改进,即使是最为封闭的科技公司巨头苹果公司也在使用其Swift编程语言进行开源。此外,从我国湖仓一体公司的技术路径来看,此类公司多基于国外知名互联网公司或团队开源的底层架构,在基础层的生态方面我们仍有明显短缺,建议重视基础层生态建设,打造国有化、自主研发的数据生态和技术产品。
02 建议关注湖仓一体、流批一体等前沿技术进展,提早布局数据相关行业。
大数据基础设施中的湖仓一体化已经成为此领域厂商的必争之地,也是大数据产业赖以生存的未来基础,“十四五”期间国产化数据库、数据湖、数据仓库、湖仓一体化产品将有长足发展。建议加大对此类前沿技术的关注,及时了解市场上各技术公司的技术路径,针对性给予支持或提早进行相关准备和布局。
03 建议人工智能政策向基础层倾斜,加大对数据智能公司及机构的支持与重视。
有报告显示,2018年近90%的人工智能公司处于亏损状态,而10%赚钱的企业基本是技术提供商,对应人工智能图谱中基础层,如AI模型生产,AI算力和AI数据资源管理模块。另外,在数据基础设施架构中,从数据源到数据管理、数据使用和数据治理应制定相应的标准和检测机制,明确数据产品质量和关键指标,促进数据产业繁荣发展。
留言与评论(共有 0 条评论) “” |