尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】
大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)
- B站直达:https://www.bilibili.com/video/BV1ue4y1i7na??尚硅谷数据湖Hudi视频教程
- 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
- 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)
尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记02【核心概念(基本概念、数据写、数据读)】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记03【集成Spark】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记04【集成Flink】
尚硅谷大数据技术-数据湖Hudi视频教程-笔记05【集成Hive】
目录
第3章 核心概念
010
第3章 核心概念
3.1 基本概念
3.1.1 时间轴(TimeLine)
011
3.1.2 文件布局(File Layout)
012
3.1.2 文件布局(File Layout)
013
3.1.3 索引(Index)
1)原理
014
3.1.3 索引(Index)
2)索引选项
015
3.1.3 索引(Index)
3)全局索引与非全局索引
016
3.1.3 索引(Index)
4)索引的选择策略
017
3.1.4 表类型(Table Types)
1)Copy On Write
018
3.1.4 表类型(Table Types)
2)Merge On Read
019
3.1.4 表类型(Table Types)
3)COW与MOR的对比
cow:批处理、mor:流批都行,更推荐流。
020
3.1.5 查询类型(Query Types)
1)Snapshot Queries? ? ?快照查询:全量最新。
2)Incremental Queries
3)Read Optimized Queries
021
3.1.5 查询类型(Query Types)
4)不同表支持的查询类型
022
3.2 数据写
3.2.1 写操作
3.2.2 写流程(UPSERT)
1)Copy On Write
2)Merge On Read
023
3.2.3 写流程(INSERT)
1)Copy On Write
2)Merge On Read
3.2.4 写流程(INSERT OVERWRITE)
1)COW
2)MOR
3)优点
4)缺点
024
3.2.5 Key 生成策略
3.2.6 删除策略
1)逻辑删
2)物理删
3.2.7 总结
025
3.3 数据读
3.3.1 Snapshot读
3.3.2 Incremantal读
3.3.3 Streaming读
3.4 Compaction
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!