Spark理论知识—1
1、Spark集群开发
spark集群运行时需要使用hdfs存储日志 9870端口
/export/server/hadoop/sbin/start-dfs.sh
# 手动退出安全模式
hdfs dfsadmin -safemode forceExit
使用yarn进行资源调度服务 8088端口
/export/server/hadoop/sbin/start-yarn.sh
执行到这里我问一个问题
为什么不直接全部启动?
/export/server/hadoop/sbin/start-all.sh
启动standalone进行资源调度 spark使用自带资源调度服务 8080端口
/export/server/spark/sbin/start-all.sh /export/server/spark/sbin/stop-all.sh
注意这里是all.sh是把所有的都启动了。
问:
如何只启动spark计算引擎,而不启动spark自带的资源调度服务。
2、Anaconda
# 总结成两句话:
1、anaconda集成了python解释器和各种数据开发模块,服务器可以直接安装anaconda工具
2、anaconda引入虚拟环境,正常情况下一台电脑只能装一个python3的版本,不管你放C盘还是移动盘,但是anaconda虚拟环境可以让你一台电脑装python38,python39
# 操作
1、查看所有虚拟环境
2、创建新的虚拟环境
3、删除虚拟环境
4、进入虚拟环境
5、退出虚拟环境
查看当前有多少虚拟环境
conda info --envs
创建新的虚拟环境
conda create -n shaonianlu python=3.9
进入某个虚拟环境
conda activate shaonianlu
推出当前虚拟环境
conda deactivate
删除
conda remove -n shaonianlu --all
3、pycharm远程开发配置
远程开发需要用到什么?
-
ssh连接远程服务器,用以操作服务器
-
jdbc协议远程连接服务器的数据库
-
sftp服务,将本地目录和远程服务器上的目录做映射,将本地代码文件同步到远程服务器上
-
连接远程的python环境,可以使用远程python环境运行代码
SSH远程连接服务器
python配置远程Python环境和sftp映射
这个图要能看懂
报错
无法运行或者找不到,这俩种遇到任何一种都删除配置
删什么东西?
- sftp的remote host先删除掉
- 再删除远程python环境
集群模式下standalone高可用(这个是大前提,不少错误都是没开高可用)
交互式
(base)node1: 直接
pyspark
进入的是本地模式 在node1上输入就使用node1的资源,在node2上输入就使用node2的资源[代码测试用]
(base)node1: pyspark --master spark://node1:7077standlaone
(base)node1: pyspark --master spark://node1:7077,node2:7077 但是你前提得开启zk服务,并在另一台服务器开启备用服务 高可用模式
(base)node1: pyspark --master yarn
脚本式
from pyspark import SparkContext
# 没有指定任何参数,使用本地local模式
sc = SparkContext()
# master参数可以指定调用的资源服务
# 使用standalone资源调度
sc = SparkContext(master='spark://node1:7077')
# 使用standalone高可用资源调度
sc = SparkContext(master='spark://node1:7077,node2:7077')
# 使用yarn资源调度
sc = SparkContext(master='yarn')
ssh连接慢或者sftp连接慢
vim /etc/ssh/sshd_config
【哪台连接的慢,你就修改哪台的】
别忘记重启
systemctl restart sshd
单词
Proceed:继续进行
Remote:远程 -->remote host :远程主机
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!