拥抱数据孤岛：穿越碎片化数据世界

科技 06-29 来源：爱码农

我们认为正确的方法是接受它们，而不是试图消除数据孤岛。

多年来在大数据和机器学习领域的工作，我们经常听到数据工程师从数据中提取价值的最大障碍是能够有效地访问数据。数据孤岛，孤立的数据孤岛，经常被数据工程师视为关键的罪魁祸首或公敌。已经有许多尝试消除数据孤岛，但这些尝试本身导致了另一个数据孤岛，数据湖就是这样一个例子。我们认为正确的方法是接受它们，而不是试图消除数据孤岛。

数据孤岛存在的原因

数据孤岛存在的原因主要有三个。首先，在任何组织内都存在用于不同用途的具有不同特征的数据（物联网数据，行为数据，交易数据等），并且一些数据将比其他数据更具业务关键性。以上推动了对不同存储系统的需求。此外，历史表明，每隔五到十年，存储技术就会出现新浪潮，从而生成更快，更便宜或更好地为某些类型的数据设计的存储系统。组织也希望避免供应商锁定，因此他们将使数据存储多样化。最后，有些法规要求对数据进行孤立。

由于上述所有原因，每个新的存储系统不可避免地成为数据环境中的另一个数据孤岛。

试图消除筒仓

多年来，已经有许多尝试来解决数据孤岛带来的挑战，但这些尝试导致了更多的数据孤岛。例如，数据工程师经常使用Apache Spark或Apache Hive构建管道，以便将数据从一个Hadoop集群处理和导出到另一个Hadoop集群（可能是远程的或由不同的部门拥有），以便聚合下游数据处理应用程序所需的数据集。但是，这种类型的数据迁移管道（通常是ETL管道）构建和维护很复杂，并且还会在不同的集群之间创建重复。

拥抱数据孤岛

我们认为数据孤岛本身并不是挑战; 最根本的挑战是如何在不增加复杂性或重复性的情况下使数据工程师可以访问数据。我们建议利用位于计算框架和存储系统之间的数据编排系统来解决数据访问挑战，而不是消除孤岛。我们将数据编排系统定义为一个层，用于抽象跨存储系统的数据访问，虚拟化所有数据，并通过带有全局命名空间的标准化API将数据呈现给数据驱动的应用程序。

通过数据编排系统，数据工程师可以轻松访问存储在各种存储系统中的数据。例如，数据工程师可能需要连接最初存储在两个不同区域中的两个表 - 本地Hadoop集群和远程Hadoop集群。在这种情况下，该工程师可以将Alluxio部署为数据编排层，并将Hive Metastore中的表位置更改为Alluxio URL而不是每个单独的物理Hadoop集群。

因此，在Alluxio中缓存远程表比直接重复读表提供了更好的性能。此外，存储团队可以做出最佳的存储购买决策，而不会受到他们的决策对应用程序团队的影响的束缚。