1.简介
Hudi是Hadoop Updates and Incrementals的简写,它是由Uber开发并开源的Data Lakes解决方案。Hudi能够基于HDFS之上管理大型分析数据集,可以对数据进行插入、更新、增量消费等操作,感觉是一种轻量级的插件,可以作为lib与spark,flink结合使用,存储可以结合hive进行表数据的管理。
2.特性
Hudi基于Parquet列式存储与Avro行式存储,同时避免创建小文件,实现高效率低延迟的数据访问。在HDFS数据集上提供插入更新、增量拉取、全量拉取。Hudi具有如下特点:
3.spark引用hudi的应用
3.1 sparksql引用hudi并启动
3.2 创建表
3.3增删改查:
留言与评论(共有 0 条评论) “” |