当前位置: 首页 > news >正文

Spark知识总结

宽窄依赖:父RDD的分区只对应下面子RDD的一个分区,为窄依赖。其余为宽依赖

维度窄依赖宽依赖
数据传输无shuffle,本地处理14需shuffle,跨节点传输14
并行度高(允许流水线并行)57低(需等待父任务完成)28
容错恢复成本仅需重算单个父分区57需重算多个父分区8
典型操作mapfilterunion4groupByKeyjoin4

其实就是父RDD的一个分区会被传到几个子RDD分区的区别。如果被传到一个子RDD分区,就可以不需要移动数据(移动计算);如果被传到多个子RDD分区,就需要进行数据的传输。

如何计算job, stage, task可以参考这篇博客:[Spark] 手撕Job、Stage、Task划分机制_spark根据什么分task-CSDN博客

相关文章:

  • AI在Java中的场景面试题深度解析
  • c++之使用 libdl.so 和 <dlfcn.h> 实现动态链接
  • MySQL 的ANALYZE与 OPTIMIZE命令
  • 【基础篇】static_config采集配置详解
  • 《无刷空心杯电机减速机选型及行业发展趋势》
  • 邮件分类特征维度实验分析
  • QT事件Trick
  • 临床试验概述:从定义到实践的关键要素
  • Docker的常用命令
  • 为什么MySQL推荐使用自增主键?
  • 密码杂凑算法HaoLooog512设计原理详解
  • TRex 控制台命令解析
  • C++:BST、AVL、红黑树
  • 【Android】SettingsPreferenceService
  • 网络协议之为什么要分层
  • Mamba2模型的实现
  • 《系统架构 - Java 企业应用架构中的完整层级划分》
  • 大学之大:韩国科学技术研究院2025.4.28
  • 聊一聊接口自动化测试的稳定性如何保障
  • 探秘Transformer系列之(31)--- Medusa
  • 四川省社科联期刊:不建议在读硕士、博士将导师挂名为第一作者
  • 找化学的答案,解人类的命题:巴斯夫的“变革者”成长之道
  • 申花四连胜领跑中超联赛,下轮榜首大战对蓉城将是硬仗考验
  • 体坛联播|皇马上演罢赛闹剧,杨瀚森宣布参加NBA选秀
  • 经济日报:AI时代如何寻找“你的赛道”
  • 弘扬 “上海精神”,上合组织政党论坛聚焦政党责任与使命