从零开始配置spark-local模式
1. 环境准备
-
操作系统:推荐使用 Linux 或 macOS,Windows 也可以,但可能会有一些额外的配置问题。
-
Java 环境:Spark 需要 Java 环境。确保安装了 JDK 1.8 或更高版本。
-
检查 Java 版本:
bash复制
java -version
-
如果没有安装,可以从 Oracle 官网 或使用包管理工具安装,例如在 Ubuntu 上:
bash复制
sudo apt update sudo apt install openjdk-11-jdk
-
2. 下载和安装 Spark
-
下载 Spark:
-
访问 Apache Spark 官方下载页面。
-
选择合适的版本(建议选择预编译的版本,如 Hadoop 2.7+)。
-
下载完成后,解压到本地目录,例如:
bash复制
tar -xzf spark-3.4.0-bin-hadoop2.7.tgz mv spark-3.4.0-bin-hadoop2.7 ~/spark
-
3. 配置环境变量
-
配置 SPARK_HOME 和 PATH:
-
打开你的 shell 配置文件(如
bash.bashrc
或.zshrc
):复制
nano ~/.bashrc
-
添加以下内容:
bash复制
export SPARK_HOME=~/spark export PATH=$SPARK_HOME/bin:$PATH
-
应用配置:
bash复制
source ~/.bashrc
-
4. 配置 Spark
-
修改配置文件(可选):
-
Spark 默认使用本地模式运行,但你可以通过修改配置文件来调整一些参数。
-
进入 Spark 的配置目录:
bash复制
cd ~/spark/conf
-
复制
bashspark-defaults.conf.template
为spark-defaults.conf
:复制
cp spark-defaults.conf.template spark-defaults.conf
-
编辑
bashspark-defaults.conf
,添加或修改以下内容(根据需要):复制
spark.master local[*] spark.executor.memory 1g spark.driver.memory 1g
-
5. 启动 Spark Shell
-
进入 Spark 安装目录:
bash复制
cd ~/spark
-
启动 Spark Shell:
bash复制
./bin/spark-shell
如果一切正常,你会看到 Spark Shell 的提示符,例如:
复制
Welcome to____ __/ __/__ ___ _____/ /___\ \/ _ \/ _ `/ __/ '_//__ / .__/\_,_/_/ /_/\_\ version 3.4.0/_/Using Scala version 2.12.10, OpenJDK 64-Bit Server VM, 1.8.0_282 Type in expressions to have them evaluated. Type :help for more information.scala>
6. 测试 Spark
-
在 Spark Shell 中运行以下代码测试:
scala复制
val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data, 2) distData.reduce(_ + _)
输出结果应该为
15
。
7. 使用 PySpark(可选)
如果你使用 Python,可以安装 PySpark:
-
安装 PySpark:
bash复制
pip install pyspark
-
运行 PySpark Shell:
bash复制
pyspark
-
测试代码:
Python复制
data = [1, 2, 3, 4, 5] distData = sc.parallelize(data, 2) print(distData.reduce(lambda a, b: a + b))
8. 关闭 Spark Shell
-
在 Spark Shell 中输入
:quit
或exit
退出。
注意事项
-
内存配置:根据你的机器配置调整
spark.executor.memory
和spark.driver.memory
。 -
网络问题:如果在 Windows 上运行,可能会遇到网络配置问题,建议使用 WSL 或 Docker。
-
依赖问题:如果需要连接数据库或使用其他组件,可能需要额外配置依赖。