Apache Hudi 流转批场景实践

日期： 2023-02-28 21:56:18 来源：ApacheHudi收集编辑：forwardxu

背景

在某些业务场景下，我们需要一个标志来衡量hudi数据写入的进度，比如：Flink 实时向 Hudi 表写入数据，然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL，这也就是我们通常说的流转批。

EventTime计算原理

图中Flink Sink包含了两个算子。第一个writer 算子，它负责把数据写入文件，writer在checkpoint触发时，会把自己写入的最大的一个时间传到commit算子中，然后commit算子从多个上游传过来的时间中选取一个最小值作为这一批提交数据的时间，并写入HUDI表的元数据中。

社区相关工作参考: https://issues.apache.org/jira/browse/HUDI-5095

案例使用

我们的方案是将这个进度值(EventTime)存储为 hudi 提交（版本）元数据的属性里，然后通过访问这个元数据属性获取这个进度值。在下游的批处理任务之前加一个监控任务去监控最新快照元数据。如果它的时间已经超过了当前的分区时间，就认为这个表的数据已经完备了，这个监控任务就会成功触发下游的批处理任务进行计算，这样可以防止在异常场景下数据管道或者批处理任务空跑的情况。

下图是一个flink 1分钟级别入库到HUDI ODS表, 然后通过流转批计算写入HUDI DWD表的一个执行过程。

US调度系统轮询逻辑

如何解决乱序到来问题, 我们可以通过设置spedGapTime来设置允许延迟到来的范围默认是0 不会延迟到来。

Maven pom 依赖

针对此功能特性的Hudi依赖版本如下


<dependencies>
  <dependency>
    <groupId>org.apache.hudi</groupId>
    <artifactId>hudi-flink1.13-bundle</artifactId>
    <version>0.12.1</version>
  </dependency>
</dependencies>

<dependencies>
  <dependency>
    <groupId>org.apache.hudi</groupId>
    <artifactId>hudi-flink1.15-bundle</artifactId>
    <version>0.12.1</version>
  </dependency>
</dependencies>

如何设置EventTime

能够解析的字段类型及格式如下:

类型	示例
TIMESTAMP(3)	2012-12-12T12:12:12
TIMESTAMP(3)	2012-12-12 12:12:12
DATE	2012-12-12
BIGINT	100L
INT	100

Flink API

用户只需要设置flink conf指定时间字段作为时间推进字段

Map<String, String> options = new HashMap<>();
// 这里省略其他表字段
options.put(FlinkOptions.EVENT_TIME_FIELD.key(), "ts");
HoodiePipeline.Builder builder = HoodiePipeline.builder(targetTable)
     .column("id int not null")
     .column("ts string")
     .column("dt string")
     .pk("id")
     .partition("dt")
     .options(options);

Flink SQL

通过设置hoodie.payload.event.time.field指定需要计算的eventtime的字段

create table hudi_cow_01(\n" +
"  uuid varchar(20),\n" +
"  name varchar(10),\n" +
"  age int,\n" +
"  ts timestamp(3),\n" +
"  PRIMARY KEY(uuid) NOT ENFORCED\n" +
")\n" +
" with (\n" +
 // 这里省略其他参数
"  'hoodie.payload.event.time.field' = 'ts'\n"
")

如何读取EventTime

Spark SQL

call show_commit_extra_metadata(table => 'hudi_tauth_test.hudi_cow_01', metadata_key => 'hoodie.payload.event.time.field');

Java API

代码获取片段如下

Option<HoodieCommitMetadata> commitMetadataOption = MetadataConversionUtils.getHoodieCommitMetadata(metaClient, currentInstant);
if (!commitMetadataOption.isPresent()) {
    throw new HoodieException(String.format("Commit %s not found commitMetadata in Commits %s.", currentInstant, timeline));
}
// 获取到当前版本的时间进度
String eventTime = commitMetadataOption.get().getExtraMetadata().get(FlinkOptions.EVENT_TIME_FIELD.key());
System.out.println("current eventTime: " + eventTime);

输出结果如下

current eventTime: 1667971364742

推荐阅读

Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资

流利说基于Apache Hudi构建实时数仓的实践

年度合集！Apache Hudi 技术文章一次看个够

基于Apache Hudi 构建Serverless实时分析平台

阿里云ADB基于Hudi构建Lakehouse的实践

服务粉丝

Apache Hudi 流转批场景实践

背景

EventTime计算原理

案例使用

US调度系统轮询逻辑

Maven pom 依赖

如何设置EventTime

Flink API

Flink SQL

如何读取EventTime

Spark SQL

Java API

文章推荐

相关阅读

Apache Hudi 在携程的应用实践以及表服务深度揭秘

Apache Hudi 0.13.0版本重磅发布！

数据集成Zero-ETL的未来

设计师下班后如何自我提升？大家下班后都在干嘛？

chatgpt解答智慧城市。

chatgpt为公共数据运营献计献策。

公共数据授权运营，杭州来啦！

中国智慧城市论坛接洽权威智库，护航城市公共数据运营。

中金｜宏观数据建模应用手册

巧妙的看空话术

聚合标签

热门文章

百元茅台没人买，千元茅台有人追。十年前，有人花百元买了一万股茅台，后出手追中石油，如今，茅台一飞冲天，中石油深套十年。炒股，不要见异思迁，价值投资是首选。#股票#

谁说定期存款提前支取不划算？存中原银行“惠农宝”放心随便取

张小龙:交了8千万税无北京户籍孩子连私立也不让上

万字详解：ROE连续十年超过20的明星公司全面分析（附：详细名单）

“复活”半年后　京东拍拍二手杀入公益事业

离职时没有做满一个月，公司还需要帮纳当月社保吗？

最新文章

Apache Hudi 流转批场景实践

Apache Hudi 负载类Payload使用案例剖析

Flink SQL的行级权限解决方案及源码解读

Apache Hudi 在携程的应用实践以及表服务深度揭秘

Apache Hudi 0.13.0版本重磅发布！

数据集成Zero-ETL的未来

Apache Hudi 流转批 场景实践

背景

EventTime计算原理

案例使用

US调度系统轮询逻辑

Maven pom 依赖

如何设置EventTime

Flink API

Flink SQL

如何读取EventTime

Spark SQL

Java API

文章推荐

相关阅读

聚合标签

热门文章

最新文章

Apache Hudi 流转批场景实践