Hudi初探索--粉丝服务平台-粉丝头条-fensifuwu.com

Hudi初探索

科技 09-07 来源：陆离4968

1.简介

Hudi是Hadoop Updates and Incrementals的简写，它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集，可以对数据进行插入、更新、增量消费等操作，感觉是一种轻量级的插件，可以作为lib与spark,flink结合使用，存储可以结合hive进行表数据的管理。

2.特性

Hudi基于Parquet列式存储与Avro行式存储，同时避免创建小文件，实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点：

快速upsert,可插入索引。
以原子方式操作数据并具有回滚功能。
写入器和查询之间的快照隔离。
用于数据恢复的savepoint保存点。Hudi通过Savepoint来实现数据恢复。
管理文件大小，使用统计数据布局。
行和列数据的异步压缩。

3.spark引用hudi的应用

3.1 sparksql引用hudi并启动

3.2 创建表

3.3增删改查：

发表评论

留言与评论（共有 0 条评论） “”

相关文章

基于 Apache Hudi + dbt 构建开放的Lakehouse

基于 Apache Hudi + dbt 构建开放

Apache Hudi的写时复制和读时合并

Apache Hudi的写时复制和读时合并

网友投稿普通会员

我还没有学会写个人说明

2078122 篇文章

77510461 次浏览

最近文章