当前位置：首页 > news >正文

搭建speak yarn集群：从零开始的详细指南

news 来源：原创 2025/4/29 10:34:01

在大数据处理领域，Apache Spark 是一个高性能的分布式计算框架，而 YARN（Yet Another Resource Negotiator）是 Hadoop 的资源管理器。将 Spark 集成到 YARN 中，不仅可以充分利用 Hadoop 的资源管理能力，还能实现高效的计算任务调度。本文将详细介绍如何搭建 Spark on YARN 集群，包括环境准备、安装步骤、配置方法以及测试验证

一、环境准备

在开始搭建集群之前，确保你的系统环境满足以下要求：

操作系统：推荐使用 CentOS 或 Ubuntu 等 Linux 发行版。
Java 环境：确保安装了 JDK 1.8 或以上版本。
网络配置：确保集群中的所有节点能够相互通信，建议配置无密码 SSH 登录。

二、安装 Hadoop

1.下载 Hadoop：从 Apache Hadoop 官方网站下载最新版本的 Hadoop。

2.解压并安装：将下载的 Hadoop 压缩包解压到指定目录，例如 /opt/hadoop。

3.配置环境变量：编辑 /etc/profile 文件，添加以下内容：

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

然后运行 source /etc/profile 使环境变量生效。

4.配置 Hadoop：编辑 etc/hadoop/core-site.xml 和 etc/hadoop/hdfs-site.xml 文件，配置 HDFS 的相关参数。例如：

<property>
<name>fs.defaultFS</name>
<value>hdfs://namenode:8020</value>
</property>

配置完成后，启动 HDFS 服务：

start-dfs.sh

三、安装 Spark

下载 Spark：从 Apache Spark 官方网站下载与你的 Hadoop 版本兼容的 Spark。
解压并安装：将下载的 Spark 压缩包解压到指定目录，例如 /opt/spark。
配置环境变量：编辑 /etc/profile 文件，添加以下内容：

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

然后运行 source /etc/profile 使环境变量生效。

四、配置 YARN

1.编辑 YARN 配置文件：编辑 etc/hadoop/yarn-site.xml 文件，添加以下内容：

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

2.配置 Spark 以使用 YARN：编辑 Spark 的 conf/spark-defaults.conf 文件，添加以下内容：