当前位置: 首页 > news >正文

如何搭建spark yarn 模式的集群集群

以下是搭建Spark YARN模式集群的一般步骤:

 

准备工作

 

- 确保集群中各节点安装了Java环境,并配置好 JAVA_HOME 环境变量。

 

- 各节点间能通过SSH免密登录。

 

- 安装并配置好Hadoop集群,YARN作为Hadoop的资源管理器,Spark YARN模式需要依赖Hadoop环境。

 

下载与安装Spark

 

- 在官网下载适合你系统的Spark版本,将下载的压缩包上传到集群的主节点,并解压到指定目录。

 

- 配置 SPARK_HOME 环境变量,在 spark-env.sh 文件中配置相关环境参数,如 export SPARK_DIST_CLASSPATH=$(hadoop classpath) ,让Spark能够找到Hadoop的相关类。

 

配置Spark

 

- 进入Spark的配置目录,复制 spark-defaults.conf.template 为 spark-defaults.conf ,并进行编辑,设置 spark.master 为 yarn , spark.submit.deployMode 为 cluster 等参数。

 

- 复制 slaves.template 为 slaves ,在 slaves 文件中列出所有从节点的主机名或IP地址。

 

分发Spark到从节点

 

将安装好的Spark目录通过 scp 命令复制到所有从节点的相同目录下。

 

启动集群

 

- 先启动Hadoop集群,包括NameNode、DataNode、ResourceManager、NodeManager等服务。

 

- 在主节点上进入Spark的 sbin 目录,执行 start-all.sh 脚本启动Spark集群,会启动Master和Worker等进程。

 

验证集群

 

- 提交一个Spark示例应用程序,如 spark-examples 中的 WordCount 程序,观察任务是否能在YARN集群上正常运行。

 

- 通过YARN的Web界面(通常是 http://resourcemanager_ip:8088 )查看应用程序的运行情况和资源使用情况,也可以通过Spark的Web界面(通常是 http://master_ip:8080 )查看Spark集群的状态。

相关文章:

  • java 和 C#操作数据库对比
  • Web基础和HTTP协议
  • kvm学习小结
  • 计算机视觉——通过 OWL-ViT 实现开放词汇对象检测
  • Java垃圾收集器与内存分配策略深度解析
  • php数据库连接
  • Linux常见基础命令
  • Leetcode - 双周赛155
  • 超级好用的​​参数化3D CAD 建模​​图形库 (CadQuery库介绍)
  • 数字孪生的浪潮:从虚拟镜像到现实世界的 IT 变革
  • Rust 学习笔记:编程练习(一)
  • 计算机基础—(九道题)
  • 24体育NBA足球直播M28模板体育赛事直播源码
  • Rmarkdown输出为pdf的方法与问题解决
  • 从代码学习机器学习 - UMAP降维算法 scikit-learn版
  • Android 消息队列之MQTT的使用(二):会话+消息过期机制,设备远程控制,批量控制实现
  • JavaScript高级进阶(四)
  • Crusader Kings III 王国风云 3(十字军之王 3) [DLC 解锁] [Steam] [Windows SteamOS macOS]
  • Python(14)推导式
  • PCI/PXI 总线的可编程电阻卡
  • 柳州警方通报临牌车撞倒行人:扣留涉事车辆,行人无生命危险
  • 国家核安全局局长:我国核电进入大规模建设高峰期,在建规模超其他国家总和
  • 我国对国家发展规划专门立法
  • “十四五”以来少数民族发展资金累计下达边疆省区252亿元
  • 金正恩出席朝鲜人民军海军驱逐舰入水仪式
  • 五粮液一季度净利增长5.8%,今年营收与宏观经济指标保持一致