当前位置：首页 > news >正文

Spark知识总结

news 来源：原创 2025/4/29 11:33:33

宽窄依赖：父RDD的分区只对应下面子RDD的一个分区，为窄依赖。其余为宽依赖

维度‌	‌窄依赖‌	‌宽依赖‌
数据传输	无shuffle，本地处理14	需shuffle，跨节点传输14
并行度	高（允许流水线并行）57	低（需等待父任务完成）28
容错恢复成本	仅需重算单个父分区57	需重算多个父分区8
典型操作	`map`、`filter`、`union`4	`groupByKey`、`join`4

其实就是父RDD的一个分区会被传到几个子RDD分区的区别。如果被传到一个子RDD分区，就可以不需要移动数据（移动计算）；如果被传到多个子RDD分区，就需要进行数据的传输。

如何计算job, stage, task可以参考这篇博客：[Spark] 手撕Job、Stage、Task划分机制_spark根据什么分task-CSDN博客

相关文章：

AI在Java中的场景面试题深度解析

c++之使用 libdl.so 和＜dlfcn.h＞实现动态链接

MySQL 的ANALYZE与 OPTIMIZE命令

【基础篇】static_config采集配置详解

《无刷空心杯电机减速机选型及行业发展趋势》

邮件分类特征维度实验分析

QT事件Trick

临床试验概述：从定义到实践的关键要素

Docker的常用命令

为什么MySQL推荐使用自增主键？

密码杂凑算法HaoLooog512设计原理详解

TRex 控制台命令解析

C++:BST、AVL、红黑树

【Android】SettingsPreferenceService

网络协议之为什么要分层

Mamba2模型的实现

《系统架构 - Java 企业应用架构中的完整层级划分》

大学之大：韩国科学技术研究院2025.4.28

聊一聊接口自动化测试的稳定性如何保障

探秘Transformer系列之（31）--- Medusa

四川省社科联期刊：不建议在读硕士、博士将导师挂名为第一作者

找化学的答案，解人类的命题：巴斯夫的“变革者”成长之道

申花四连胜领跑中超联赛，下轮榜首大战对蓉城将是硬仗考验

体坛联播｜皇马上演罢赛闹剧，杨瀚森宣布参加NBA选秀

经济日报：AI时代如何寻找“你的赛道”

弘扬 “上海精神”，上合组织政党论坛聚焦政党责任与使命