Hive入门＋部署

2023-12-20 21:27:34

?看黑马视频做的笔记?

概念

1.基本概述

概念

1.基本概述

????????数据的统计分析（编程语言（JAVA或Python）与SQL）

????????SQL做统计很方便、MapReduce支持程序开发(Java、Python等)但不支持SQL开发

????????所以有了Hive：Apache Hive是一款分布式SQL计算的工具，其主要功能是:·将SQL语句翻译成MapReduce程序运行

????????基于Hive为用户提供了分布式SQL计算的能力：写的是SQL、执行的是MapReduce

2.基础架构

????????Apache Hive其2大主要组件就是：SQL解析器以及元数据存储。

总架构

部署

????????部署在node1上，只需要部署在一台服务器即可，但他可以提交分布式运行的MapReduce程序运行。

1.安装MySQL

root用户进行下操作

# 更新密钥
rpm --import https://repo.mysql.com/RPM-GPG-KEY-mysql-2022

# 安装Mysql yum库
rpm -Uvh http://repo.mysql.com//mysql57-community-release-el7-7.noarch.rpm

# yum安装Mysql
yum -y install mysql-community-server

# 启动Mysql设置开机启动
systemctl start mysqld
systemctl enable mysqld

# 检查Mysql服务状态
systemctl status mysqld

# 第一次启动mysql，会在日志文件中生成root用户的一个随机密码，使用下面命令查看该密码
grep 'temporary password' /var/log/mysqld.log

复制该密码

#登录mysql：
mysql -u root -p

#输入复制的密码
Enter password:

 
# 修改root用户密码
# 如果你想设置简单密码，需要降低Mysql的密码安全级别
set global validate_password_policy=LOW; # 密码安全级别低
set global validate_password_length=4;	 # 密码长度最低4位即可

# 然后就可以用简单密码了（课程中使用简单密码，为了方便，生产中不要这样）
alter user 'root'@'localhost' identitied by '123456';

grant all privileges on *.* to root@"%" identified by '123456' with grant option;
#刷新权限  
flush privileges;

exit；
#登录验证
mysql -uroot -p

2.配置Hadoop???

????????Hive的运行依赖于Hadoop（HDFS、MapReduce、YARN都依赖）同时涉及到HDFS文件系统的访问，所以需要配置Hadoop的代理用户。即设置hadoop用户允许代理（模拟）其它用户

??????? 添加配置文件到Hadoop的core-site.xml，并分发到其它节点，且重启HDFS集群

hadoop用户下操作

vim  /export/server/hadoop/etc/hadoop/core-site.xml 

添加：
<property>
??<name>hadoop.proxyuser.hadoop.hosts</name>
??<value>*</value>
??</property>

?<property>
??<name>hadoop.proxyuser.hadoop.groups</name>
??<value>*</value>
?</property>


#分发
scp core-site.xml node2:`pwd`/
scp core-site.xml node3:`pwd`/

3.下载解压Hive

hadoop用户下操作

#在线下载Hive安装包：
wget http://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3-bin.tar.gz

#解压到node1服务器的：/export/server/内
tar -zxvf apache-hive-3.1.3-bin.tar.gz -C /export/server/

#设置软连接
ln -s /export/server/apache-hive-3.1.3-bin /export/server/hive

4.下载MySQL Driver包

cd /export/server/hive/lib/

#在线下载
wget https://repo1.maven.org/maven2/mysql/mysql-connector-java/5.1.34/mysql-connector-java-5.1.34.jar

注意！

hive的lib下面与guava版本与hadoop的目录share/hadoop/common/lib版本不一样后面会报错

#删除hive的lib下面的guava-19.0.jar
rm -r /export/server/hive/lib/guava-19.0.jar

拷贝hadoop下面的guava-27.0.jar到hive的lib下面
cp -r /export/server/hadoop/share/hadoop/common/lib/guava-27.0.jar  /export/server/hive/lib/

5.配置Hive

mv /export/server/hive/conf/

将conf里面的模板重命名
mv hive-env.sh.template hive-env.sh

#添加
export HADOOP_HOME=/export/server/hadoop
export HIVE_CONF_DIR=/export/server/hive/conf
export HIVE_AUX_JARS_PATH=/export/server/hive/lib

vim hive-site.xml

添加以下内容：

<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://node1:3306/hive?createDatabaseIfNotExist=true&amp;useSSL=false&amp;useUnicode=true&amp;characterEncoding=UTF-8</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>

  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>123456</value>
  </property>

  <property>
    <name>hive.server2.thrift.bind.host</name>
    <value>node1</value>
  </property>

  <property>
    <name>hive.metastore.uris</name>
    <value>thrift://node1:9083</value>
  </property>

  <property>
    <name>hive.metastore.event.db.notification.api.auth</name>
    <value>false</value>
  </property>

</configuration>

6.初始化元数据库

mysql -uroot -p

在MySQL中新建数据库：hive
CREATE DATABASE hive CHARSET UTF8;
exit


执行元数据库初始化命令：
cd /export/server/hive
bin/schematool -initSchema -dbType mysql -verbos

# 初始化成功后，会在MySQL的hive库中新建74张元数据管理的表。
检查以下是否成功
mysql -uroot -p
use hive
show tables;

7.启动Hive（使用Hadoop用户）

确保Hive文件夹所属为hadoop用户

创建一个hive的日志文件夹： 
mkdir /export/server/hive/logs

启动元数据管理服务（必须启动，否则无法工作）二选一
前台启动：bin/hive --service metastore 
后台启动：nohup bin/hive --service metastore >> logs/metastore.log 2>&1 &


启动客户端（启动前要先启动HDFS和Yarn集群）
Hive Shell方式（可以直接写SQL）： bin/hive

?成功页面

?实例

#进入hive
create table test(id int, name string, gender string);

insert into test values(1,'zhangsan', 'male'),(2, "lisi", "male"),(3, "wanger",'female');

SELECT gender, COUNT(*) AS cnt FROM test GROUP BY gender;

?结果：

查看HDFS上表中存储的内容

?在mysql中查看表的相关信息

?元数据的路径

?在WEB上查看MapReduce

?总结

1. Hive写的是SQL，但跑的是MapReduce

2.HIve元数据管理中mysql存的是元数据及其相关信息

2.Hive处理的数据看起来处理的是表，实际上处理的是HDFS里面的文本文件，他将SQL语句翻译成MapReduce，对文件进行MapReduce分布式计算，再以表格的形式返回结果

文章来源:https://blog.csdn.net/qq_54828577/article/details/135106624
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！