当前位置: 首页 > news >正文

从零开始配置spark-local模式

1. 环境准备

  • 操作系统:推荐使用 Linux 或 macOS,Windows 也可以,但可能会有一些额外的配置问题。

  • Java 环境:Spark 需要 Java 环境。确保安装了 JDK 1.8 或更高版本。

    • 检查 Java 版本:

      bash

      复制

      java -version
    • 如果没有安装,可以从 Oracle 官网 或使用包管理工具安装,例如在 Ubuntu 上:

      bash

      复制

      sudo apt update
      sudo apt install openjdk-11-jdk

2. 下载和安装 Spark

  • 下载 Spark

    • 访问 Apache Spark 官方下载页面。

    • 选择合适的版本(建议选择预编译的版本,如 Hadoop 2.7+)。

    • 下载完成后,解压到本地目录,例如:

      bash

      复制

      tar -xzf spark-3.4.0-bin-hadoop2.7.tgz
      mv spark-3.4.0-bin-hadoop2.7 ~/spark

3. 配置环境变量

  • 配置 SPARK_HOME 和 PATH

    • 打开你的 shell 配置文件(如 .bashrc.zshrc):

      bash

      复制

      nano ~/.bashrc
    • 添加以下内容:

      bash

      复制

      export SPARK_HOME=~/spark
      export PATH=$SPARK_HOME/bin:$PATH
    • 应用配置:

      bash

      复制

      source ~/.bashrc

4. 配置 Spark

  • 修改配置文件(可选):

    • Spark 默认使用本地模式运行,但你可以通过修改配置文件来调整一些参数。

    • 进入 Spark 的配置目录:

      bash

      复制

      cd ~/spark/conf
    • 复制 spark-defaults.conf.templatespark-defaults.conf

      bash

      复制

      cp spark-defaults.conf.template spark-defaults.conf
    • 编辑 spark-defaults.conf,添加或修改以下内容(根据需要):

      bash

      复制

      spark.master                     local[*]
      spark.executor.memory            1g
      spark.driver.memory              1g

5. 启动 Spark Shell

  • 进入 Spark 安装目录

    bash

    复制

    cd ~/spark
  • 启动 Spark Shell

    bash

    复制

    ./bin/spark-shell

    如果一切正常,你会看到 Spark Shell 的提示符,例如:

    复制

    Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//__ / .__/\_,_/_/ /_/\_\   version 3.4.0/_/Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_282
    Type in expressions to have them evaluated.
    Type :help for more information.scala>

6. 测试 Spark

  • 在 Spark Shell 中运行以下代码测试:

    scala

    复制

    val data = Array(1, 2, 3, 4, 5)
    val distData = sc.parallelize(data, 2)
    distData.reduce(_ + _)

    输出结果应该为 15

7. 使用 PySpark(可选)

如果你使用 Python,可以安装 PySpark:

  • 安装 PySpark

    bash

    复制

    pip install pyspark
  • 运行 PySpark Shell

    bash

    复制

    pyspark
  • 测试代码:

    Python

    复制

    data = [1, 2, 3, 4, 5]
    distData = sc.parallelize(data, 2)
    print(distData.reduce(lambda a, b: a + b))

8. 关闭 Spark Shell

  • 在 Spark Shell 中输入 :quitexit 退出。

注意事项

  • 内存配置:根据你的机器配置调整 spark.executor.memoryspark.driver.memory

  • 网络问题:如果在 Windows 上运行,可能会遇到网络配置问题,建议使用 WSL 或 Docker。

  • 依赖问题:如果需要连接数据库或使用其他组件,可能需要额外配置依赖。

相关文章:

  • AI 赋能 3D 创作!Tripo3D 全功能深度解析与实操教程
  • git 版本提交规范
  • 软件产品开发全生命周期管理概览:从市场调研到运营维护(着重开发版)
  • 特征提取登上Nature!计算速度为1.0256 TOPS
  • Oracle数据库和PLSQL安装配置
  • C# 的 字符串插值($) 和 逐字字符串(@) 功能
  • .net core 中directory , directoryinfo ,file, fileinfo区别,联系,场景
  • 计算机前沿技术课程论文 K-means算法在图像处理的应用
  • 前端技术未来的发展趋势分析
  • 【Docker 运维】Java 应用在 Docker 容器中启动报错:`unable to allocate file descriptor table`
  • 计组1.2.2——各个硬件的工作原理
  • 永磁同步电机控制算法-VF控制
  • 初识Redis · C++客户端set和zset
  • 创建 Node.js Playwright 项目:从零开始搭建自动化测试环境
  • Web3核心技术解析:从区块链到C++实践
  • 【Linux】进程替换与自定义 Shell:原理与实战
  • 【现代深度学习技术】循环神经网络05:循环神经网络的从零开始实现
  • 电商数据自动化采集方案:淘宝商品详情 API 接入与数据处理技巧
  • 电脑硬盘常见的几种接口类型
  • C++ 操作符重载Operator
  • 机器人马拉松背后的五大启示:未来社会与机器人的深度融合
  • 执政将满百日,特朗普政府面临国内“三重暴击”
  • 美元指数跌破98关口,人民币对美元即期汇率升值至4月3日来新高
  • 四川省委统战部副部长(正厅级)张荣履新峨眉电影集团“一把手”
  • 冲线!“天工”夺得全球首个人形机器人半马冠军
  • 两大跨国巨头称霸GLP-1市场,国产减肥药的机会在哪?