当前位置: 首页 > news >正文

搭建speak yarn集群:从零开始的详细指南

  在大数据处理领域,Apache Spark 是一个高性能的分布式计算框架,而 YARN(Yet Another Resource Negotiator)是 Hadoop 的资源管理器。将 Spark 集成到 YARN 中,不仅可以充分利用 Hadoop 的资源管理能力,还能实现高效的计算任务调度。本文将详细介绍如何搭建 Spark on YARN 集群,包括环境准备、安装步骤、配置方法以及测试验证

一、环境准备

在开始搭建集群之前,确保你的系统环境满足以下要求:

  • 操作系统:推荐使用 CentOS 或 Ubuntu 等 Linux 发行版。

  • Java 环境:确保安装了 JDK 1.8 或以上版本。

  • 网络配置:确保集群中的所有节点能够相互通信,建议配置无密码 SSH 登录。

二、安装 Hadoop

1.下载 Hadoop:从 Apache Hadoop 官方网站下载最新版本的 Hadoop。

2.解压并安装:将下载的 Hadoop 压缩包解压到指定目录,例如 /opt/hadoop。

3.配置环境变量:编辑 /etc/profile 文件,添加以下内容:

export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

 然后运行 source /etc/profile 使环境变量生效。

4.配置 Hadoop:编辑 etc/hadoop/core-site.xmletc/hadoop/hdfs-site.xml 文件,配置 HDFS 的相关参数。例如:

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://namenode:8020</value>
</property>

 配置完成后,启动 HDFS 服务:

start-dfs.sh

 三、安装 Spark

  1. 下载 Spark:从 Apache Spark 官方网站下载与你的 Hadoop 版本兼容的 Spark。

  2. 解压并安装:将下载的 Spark 压缩包解压到指定目录,例如 /opt/spark。

  3. 配置环境变量:编辑 /etc/profile 文件,添加以下内容:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

 然后运行 source /etc/profile 使环境变量生效。

四、配置 YARN

1.编辑 YARN 配置文件:编辑 etc/hadoop/yarn-site.xml 文件,添加以下内容:

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

2.配置 Spark 以使用 YARN:编辑 Spark 的 conf/spark-defaults.conf 文件,添加以下内容:

spark.master yarn
spark.submit.deployMode cluster

此外,还需要在 conf/spark-env.sh 文件中设置以下环境变量:

export HADOOP_CONF_DIR=/opt/hadoop/etc/hadoop
export YARN_CONF_DIR=/opt/hadoop/etc/hadoop

五、启动集群

1.启动 YARN 服务:运行以下命令启动 YARN:

start-yarn.sh 

2. 检查服务状态:使用以下命令检查 YARN 服务是否正常运行:

jps

 如果看到 ResourceManager 和 NodeManager 进程,则说明 YARN 服务已成功启动。

六、测试集群

为了验证 Spark on YARN 集群是否正常工作,可以提交一个简单的 Spark 作业进行测试。例如,计算 π 的值:

spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode cluster /path/to/examples.jar 10

如果作业成功运行并返回结果,则说明集群搭建成功。

七、总结

  通过本文的步骤,您已经成功搭建了一个 Spark on YARN 集群。在实际使用中,您还可以根据需求进一步优化配置,例如调整资源分配策略或优化任务调度参数。希望本文能帮助您更好地理解和使用这一强大的大数据处理平台。

如果您在搭建过程中遇到任何问题,欢迎留言交流。 

相关文章:

  • C++(初阶)(十三)——继承
  • 【C++11特性】Lambda表达式(匿名函数)
  • 职坐标IT培训破局AI风口新赛道
  • 「Mac畅玩AIGC与多模态06」开发篇02 - 开发第一个知识库问答应用
  • MANIPTRANS:通过残差学习实现高效的灵巧双手操作迁移
  • MYSQL-OCP官方课程学习截图
  • K8s新手系列之K8s中的资源
  • 庙算兵棋推演AI开发初探(7-神经网络训练与评估概述)
  • springboot dev process
  • 每日算法-250428
  • 从千兆到40G:飞速(FS)助力制造企业构建高可靠智能生产网络
  • 【JavaScript】相等运算符、条件运算符
  • 爱芯元智/芯昇,XS9950A,1 通道AHD模拟视频
  • 02 面向对象
  • 游戏盾与高防CDN的协同防御策略分析
  • 网络准入控制系统推荐:2025年构建企业网络安全的第一道防线
  • 【深度学习】#10 注意力机制
  • MQ-2烟雾传感器
  • 基于 BERT 微调一个意图识别(Intent Classification)模型
  • 在前端应用领域驱动设计(DDD):必要性、挑战与实践指南
  • 2025上海车展 | 当智驾不再让人兴奋,汽车智能化暗战升级
  • 总有黑眼圈是因为“虚”吗?怎么睡才能改善?
  • 金科服务:大股东博裕资本提出无条件强制性现金要约收购,总代价约17.86亿港元
  • 体坛联播|安切洛蒂预计执教巴西国家队,利拉德确诊跟腱撕裂
  • 广东雷州农商行董事长、原行长同日被查
  • 纪录电影《中国有戏:天幕计划》启动,有望太空播放