尚硅谷大数据技术-数据湖Hudi视频教程-笔记01【概述、编译安装】

2024-01-07 22:17:26

大数据新风口:Hudi数据湖(尚硅谷&Apache Hudi联合出品)

  1. B站直达:https://www.bilibili.com/video/BV1ue4y1i7na??尚硅谷数据湖Hudi视频教程
  2. 百度网盘:https://pan.baidu.com/s/1NkPku5Pp-l0gfgoo63hR-Q?pwd=yyds
  3. 阿里云盘:https://www.aliyundrive.com/s/uMCmjb8nGaC(教程配套资料请从百度网盘下载)

目录

001

第1章 Hudi概述

002

003

004

第2章 编译安装

005

006

007

008

009


001

教程详细讲解了Hudi与当前最流行的三大大数据计算引擎:Spark、Flink和Hive的对接过程,内容包括环境准备、多种对接方式、重点配置参数分析、进阶调优手段讲解等,从入门到精通,学习后即可快速投入实际生产使用!

Apache Hudi 课程介绍

  1. 一、Apache Hudi 是什么
    1. 由 Uber 开发并开源的 Data Lakes 解决方案
      1. 下一代数仓解决方案,提供高效的 upsert 和近实时更新
    2. 核心特性
      1. 开放性:上游支持多种数据源格式,下游查询端支持多种查询引擎
      2. 丰富的事务支持:支持在文件存储布局上做更新
      3. 基于 ACID 语义的增量处理:增量ETL处理,分钟级别
      4. 智能化调度:自动管理小文件
    3. 使用场景
      1. 近实时摄取
      2. 近实时分析
      3. 增量处理管道
      4. 增量导出
  2. 二、课程特色
    1. 尚硅谷 & Apache Hudi 官方联合推出
    2. 基于最新 0.12.0 版本
    3. 保姆级教程,手把手解决各种疑难杂症
  3. 三、资料获取方式
    1. 关注尚硅谷教育公众号:回复 大数据
    2. 老学员谷粒学院免费观看
    3. B站免费观看
尚硅谷大数据技术之Apache Hudi

第1章 Hudi概述

002

第1章 Hudi概述

1.1 Hudi简介

hudi

  1. .parquet:列式存储
  2. .avro:行式存储

003

1.2 发展历史

  • 自动管理小文件,数据聚簇,压缩,清理。

004

1.4 使用场景

第2章 编译安装

005

第2章 编译安装

2.1 编译环境准备

maven修改为阿里镜像

(1)修改setting.xml,指定为阿里仓库地址

vim /opt/module/maven-3.6.1/conf/settings.xml

<!-- 添加阿里云镜像-->

<mirror>

??????? <id>nexus-aliyun</id>

??????? <mirrorOf>central</mirrorOf>

??????? <name>Nexus aliyun</name>

??????? <url>http://maven.aliyun.com/nexus/content/groups/public</url>

</mirror>

006

2.2 编译Hudi

2.2.1 上传源码包

007

2.2.4 手动安装Kafka依赖

008

2.2.5 解决spark模块依赖冲突

009

2.2.6 执行编译命令

mvn clean package -DskipTests -Dspark3.2 -Dflink1.13 -Dscala-2.12 -Dhadoop.version=3.1.3 -Pflink-bundle-shade-hive3

[atguigu@node001 hudi-0.12.0]$ mvn clean package -DskipTests -Dspark3.0 -Dflink1.17 -Dscala-2.12 -Dhadoop.version=3.1.3 -Pflink-bundle-shade-hive3

文章来源:https://blog.csdn.net/weixin_44949135/article/details/135335065
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。