1.大数据概述

2024-01-08 04:21:05

概述

先了解几个常用的网站

apache 官网
hadoop 官网
hadoop github
https://github.com/apache/xxx [https://github.com/apache/spark (example)]

hadoop

hadoop 模块

hadoop 包含了四块内容，如下图
在这里插入图片描述

Hadoop Common 通用工具(其实也不能算一个模块)
HDFS 分布式文件系统
Hadoop YARN 任务调试与集群资源管理
Hadoop MapReduce 基于 YARN 的分布式大数据处理系统 (后面使用 hive、spark 、flink)

注意：hadoop官方文档就是基本上按这四个模块讲述的，在此点出，方便想阅读的同学，更能系统有脉络的阅读。具体参考下面的图

在这里插入图片描述

hadoop 狭义上就已代表了大数据的基础生态。

hadoop 发行版

apache社区版本

至 hadoop 官网进行下载

缺点：

1.组件之间 jar 包冲突问题，组件只保证了自己无问题，并没有测试组件之间是否有版本冲突，特别是组件选择各自版本的时候。这种情况是比较恶心的。
2.有问题，也不容易定位，网上相同的报错，不一定是同一种情况导致的，所以有时候，看别人这样是解决了，但自己同样配置，不能生效。

CDP(CDH+HDP)

最大的问题就是收费，一年下来，费用也是不少。

其它云产商

阿狸、华为等等。

框架选择

选择框架根据以下条件

社区活跃度
框架在业界的使用程度

对于 Hadoop MapReduce 的替代品有很多，Hive、Spark、Flink。根据功能侧重的点不同，都是需要的存在，可以通过 Kyuubi 这类 网关 统一整合起来。

hadoop 安装

文章名称	链接
hadoop安装基础环境安装一	地址
hadoop一主三从安装	地址

后续，会有 HA 及 k8s 上部署的相关文章。

结束

至此，大数据概述至此就结束了，如有疑问，欢迎评论区留言。

文章来源:https://blog.csdn.net/2301_79691134/article/details/135359638
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！