当前位置: 首页 > news >正文

搭建spark yarn 模式的集群集群

一.引言

在大数据处理领域,Apache Spark 是一个强大的分布式计算框架,而 YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理系统。将 Spark 运行在 YARN 模式下,可以充分利用 YARN 强大的资源管理和调度能力,实现资源的高效利用和任务的灵活分配。本文将详细介绍如何搭建 Spark YARN 模式的集群,让你轻松上手大数据处理环境的搭建。

二、环境准备
在开始搭建集群之前,需要确保以下环境已准备就绪:
操作系统:建议使用 Linux 系统(如 CentOS、Ubuntu),本文以 CentOS 7 为例。


JDK:安装 Java Development Kit 8 或更高版本,确保  JAVA_HOME  环境变量已正确配置。
 
Hadoop:安装 Hadoop 集群(版本建议 2.7 及以上),并确保 HDFS 和 YARN 服务正常运行。
 
SSH 无密码登录:配置集群节点之间的 SSH 无密码登录,方便节点间通信。

三、下载与安装 Spark

  1. 下载 Spark:访问 Apache Spark 官网,选择合适的版本(建议选择与 Hadoop 版本兼容的版本),下载预编译的二进制包。例如,下载  spark-3.3.2-bin-hadoop3.2.tgz 。

wget https://archive.apache.org/dist/spark/spark-3.3.2/spark-3.3.2-bin-hadoop3.2.tgz

解压安装:将下载的压缩包解压到指定目录,并设置执行权限。

tar -zxvf spark-3.3.2-bin-hadoop3.2.tgz -C /opt/
cd /opt
mv spark-3.3.2-bin-hadoop3.2 spark
chmod -R 755 spark

配置环境变量:在 ~/.bashrc  文件中添加以下内容,然后执行 source ~/.bashrc  使配置生效。

export SPARK_HOME=/opt/spark
export PATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH

四、配置 Spark

  1.  复制配置文件:进入 Spark 安装目录的  conf  文件夹,复制配置文件模板。
  2. 配置 spark-env.sh :编辑 spark-env.sh  文件
  3. 配置 slaves :编辑 slaves  文件,指定集群中的工作节点(Worker Node),每一行一个节点主机名或 IP 地址。

五、分发 Spark 到集群节点

  • 将配置好的 Spark 目录分发到集群的其他节点上,使用  scp  命令:

scp -r /opt/spark root@worker1:/opt/
scp -r /opt/spark root@worker2:/opt/
scp -r /opt/spark root@worker3:/opt/

在每个节点上,同样设置  SPARK_HOME  和  PATH  环境变量。

六、启动集群

  • 启动 Hadoop 集群:确保 Hadoop 的 HDFS 和 YARN 服务已启动。

start-dfs.sh
start-yarn.sh

  • 启动 Spark 集群:在主节点上启动 Spark 集群。

start-slaves.sh

可以通过访问 YARN 的 Web 界面(默认地址: http://<master_ip>:8088 )查看集群资源使用情况和 Spark 任务运行状态。

七、测试集群
运行一个简单的 Spark 示例程序,验证集群是否搭建成功。

如果程序正常运行并输出计算结果,则说明 Spark YARN 模式集群搭建成功。

 

 

 

 

 

相关文章:

  • 软链接与硬链接
  • Linux系统编程---exec簇:进程的加载与替换
  • 空间计算:开启人机交互新纪元的下一代技术范式
  • 解决 Win11/Win10 “为了对电脑进行保护,已经阻止此应用”问题
  • JAVA设计模式——(八)单例模式
  • 3D架构图软件 iCraft Editor 正式发布 @icraft/player-react 前端组件, 轻松嵌入3D架构图到您的项目
  • JQuery 使用技巧
  • MCP之一_MCP协议解析
  • 邦芒秘籍:面试时自我介绍主要包含四个方面
  • PyCharm 2023升级2024 版本
  • 线下CPG零售的核心:POG与销量的循环优化
  • 回归问题常用模型以及优缺点和使用场景
  • TP5兼容达梦国产数据库
  • JAVA EE_网络原理_UDP与TCP
  • DeepSearch复现篇:QwQ-32B ToolCall功能初探,以Agentic RAG为例
  • SAP /SDF/SMON配置错误会导致HANA OOM以及Disk Full的情况
  • 【TS入门笔记3---接口(interface)、 函数与泛型 、类与面向对象 】
  • [原创](现代Delphi 12指南):[macOS 64bit App开发]: 跨平台开发同样支持retain()引用计数器处理.
  • 【Spark入门】Spark RDD基础:转换与动作操作深度解析
  • 爬虫学习笔记(三)--Http协议
  • 书业观察|一本书的颜值革命:从毛边皮面到爆火的刷边书
  • AI观察|算力饥渴与泡沫
  • 挤占学生伙食费、公务考察到景区旅游……青岛通报5起违规典型问题
  • 外交部:欢迎外国朋友“五一”来中国
  • 杭州打造商业航天全产业链,请看《浪尖周报》第22期
  • 宜家上海徐汇商场明天恢复营业,改造后有啥新变化?