数据湖无疑是近几年大数据领域最火热的一个方向,那到底什么是数据湖?数据湖的架构和核心技术有哪些?企业应该如何构建、管理和使用数据湖?阿里云的开源大数据团队在数据湖领域有多年的深耕和实战经验。
7月17日,09:00-12:40,DataFun将联合阿里云开源大数据团队举办DataFunTalk技术交流会:阿里云数据湖技术专场,将邀请到来自阿里云数据湖存储、数据湖计算、数据湖构建和管理团队的技术专家给大家做一次从数据湖架构到核心技术到平台构建的全方位介绍与分享。
01
分享日程
02
详细介绍
出品人:陈鑫伟 阿里巴巴 开源大数据 技术专家
个人介绍:阿里云数据湖构建与分析研发专家,多年大数据平台建设经验。
嘉宾:熊佳树/杨庆苇 阿里巴巴 开源大数据 技术专家/高级工程师
个人介绍:
熊佳树,阿里云开源大数据技术专家。目前聚焦于数据湖产品中的元数据、权限及格式部分。
杨庆苇,南京大学软件工程硕士,就职于阿里云开源大数据平台,主要负责数据湖构建的湖管理。
Topic 1:数据湖统一元数据、权限及治理
演讲提纲:
1. 数据湖元数据、权限背景介绍
2. 数据湖(DLF)元数据体系介绍
3. 数据湖(DLF)权限体系及实现原理介绍
4. 数据湖治理及优化实践
听众收益:
1. 开源元数据及权限现状
2. 数据湖元数据/权限实现机制
3. 数据湖治理方案及实践
嘉宾:孙大鹏 阿里巴巴 开源大数据 高级技术专家
个人介绍:花名诚历,从事多年开源大数据存储和优化工作,目前主要专注于阿里云开源大数据数据湖存储、JindoData 相关产品研发。
Topic 2:JindoData:新一代数据湖存储
演讲提纲:JindoData 是阿里云开源大数据团队自研的数据湖存储加速套件,面向大数据和 AI 生态,为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData 套件基于统一架构和内核实现,主要包括 JindoFS 存储系统(原 JindoFS Block 模式),JindoFSx 存储加速系统(原 JindoFS Cache 模式),JindoSDK 大数据万能 SDK 和全面兼容的生态工具(JindoFuse、JindoDistCp)、插件支持。
听众收益:
了解大数据和 AI 生态的存储需求差异,以及如何在云上对接不同类型存储,找到性能和性价比的最优方案:
1. 数据湖存储如何选型
2. JindoData OSS-HDFS 服务支持的数据访问场景和效果
3. JindoData 如何高效加速云上数据方案
嘉宾:毕岩 阿里巴巴 开源大数据 技术专家
个人介绍:硕士研究生毕业于南京邮电大学,曾就职于美团大数据平台,负责开源计算引擎 Spark、机器学习平台。目前在阿里云负责 DeltaLake,Hudi,Spark 等数据湖引擎开发和产品化。
Topic 3:基于 DeltaLake 构建数据湖仓体系
演讲提纲:
1. 数据湖格式背景
2. DeltaLake 的发展历程及 2.0 特性解析
3. DeltaLake 内核解剖及关键技术
4. DeltaLake 关键技术及生态建设
5. DeltaLake 经典数仓案例
听众收益:
1. 了解 DeltaLake 的核心设计和新版本 2.0 关键特性
2. 了解阿里云 EMR 围绕 DeltaLake 构建的数据湖仓生态
3. 了解 DeltaLake 如何助力经典数仓场景
嘉宾:范佚伦 阿里巴巴 开源大数据 技术专家
个人介绍:负责阿里云 EMR Spark on ACK 和 DLF 产品开发。
Topic 4:基于 Spark 的云原生数据湖分析实践
演讲提纲:
1. 背景:Spark 如何更好的与云原生结合
2. Spark on K8s 原理及实践
3. Serverless Spark 原理及实践
听众收益:
1. Spark 如何更好的与云原生结合
2. 如何利用 K8s 部署 Spark 作业
3. 如何在云上运行 Serverless 的 Spark SQL
嘉宾:陈玉兆 阿里巴巴 计算平台 技术专家
个人介绍:西安电子科技大学硕士,曾在美团负责美团实时计算平台从 0 到 1 的搭建,维护 storm 集群。加入阿里后负责计算平台 Blink SQL 引擎的开发,由于主导的功能和 Calcite 社区互动较多,在 19 年成为 Apache Calcite PMC。目前在阿里云主导 Apache Hudi 的开发,推广和宣传,尤其是 streaming 计算在 Hudi 上的场景探索 (streaming datalake、增量 ETL 等),维护了一个 3000+ 人的 Hudi 钉群,担任 0.10.0 版本的 release manager 同时成为 Hudi PMC。
Topic 5:Apache Flink+Hudi 构建实时数据湖
演讲提纲:
1. 诞生背景
2. 核心设计
3. 应用场景
4. 近期 roadmap
听众收益:
1. 了解 Flink+Hudi 的背景和核心架构
2. 了解 Flink+Hudi 的核心场景和解决的问题
03
参与方式
留言与评论(共有 0 条评论) “” |