当前位置: 首页 > news >正文

hadoop三大组件的结构及各自的作用

1 HDFS

1.1功能 HDFS 是 Hadoop 的分布式文件系统,用于存储和管理海量数据。它具有高容错性、高吞吐量和可扩展性,能够在多个节点上存储和管理大规模数据

1.2架构:采用主从架构,由一个 NameNode 和多个 DataNode 组成。NameNode 负责管理文件1统的元数据,DataNode 负责存储实际的数据.

1.3工作原理:将大文件分割成多个固定大小的块(默认 128MB),并将这些块存储在不同的 DataNode 上,每个块会存储多个副本(默认 3 个副本),以提高数据的可靠性和容错性。当需要读取文件时,客户端会从 NameNode 获取文件的块信息,然后直接从 DataNode 读取数据。

2.YARN(Yet Another Resource Negotiator)

2.1功能:YARN 是 Hadoop 的资源管理系统,负责管理和调度集群中的计算资源,使得多个应用程序可以共享集群资源。

2.2架构:主要由 ResourceManager 和 NodeManager 组成。ResourceManager 负责整个集群的资源管理和调度,NodeManager 负责每个节点的资源管理和监控。

2.3工作原理:当应用程序提交到 YARN 时,ResourceManager 会根据资源队列的配置和应用程序的需求,将资源分配给 ApplicationMaster。ApplicationMaster 负责管理应用程序的生命周期,包括任务的分配、启动和监控。NodeManager 负责管理节点上的资源,根据 ResourceManager 的指示,分配和管理节点上的计算资源,并在需要时启动和停止容器。

3.MapReduce

3.1功能:MapReduce 是 Hadoop 的编程模型和框架,用于处理大规模数据集。它将大数据处理任务分解为多个小任务,并在集群中的多个节点上并行执行这些小任务。

3.2工作原理:MapReduce 任务分为 Map 阶段和 Reduce 阶段。Map 阶段负责处理输入数据并产生一系列的键值对,Reduce 阶段负责对 Map 阶段输出的键值对进行汇总和整理。在执行过程中,MapReduce 框架会自动进行任务的分割、调度和同步。开发人员只需要编写 Map 和 Reduce 函数即可完成数据处理任务,而无需关心底层细节。

相关文章:

  • Vue3+Vite+TypeScript+Element Plus开发-22.客制Table组件
  • Spring Boot 依赖注入与Bean管理:JavaConfig如何取代XML?
  • mybatis plus打印sql日志到指定目录
  • 算法-堆+单调栈
  • TCP/IP和UDP协议的发展历程
  • PHP腾讯云人脸核身生成 SDK 接口调用步骤使用签名
  • 第十四节:实战场景-何实现全局状态管理?
  • Java 高并发核心:线程池使用详解 + 自定义参数配置全剖析(附源码+面试解析)
  • 【实体转换】mapstruct详解
  • 基于Flask的AI工具聚合平台技术解析
  • idea 许可证过期
  • HTML理论题
  • YOLOV4在RTX 4090 Ubuntu 24.04 LTS 下的实践总结
  • C++17 新特性简解
  • 无人机在农业中的应用与挑战!
  • 如何才能学会代数几何,代数几何的前置学科是什么
  • uniapp打包IOS私钥证书过期了,如何在非mac系统操作
  • 【项目管理】第19章 配置与变更管理-- 知识点整理
  • 观察者模式详解与C++实现
  • STM32---GPIO
  • 执政将满百日,特朗普政府面临国内“三重暴击”
  • 马上评|与其争论董宇辉该不该获奖,不如多关心文学
  • 美国同日曝两起泄密事件:防长群聊向家人分享作战计划,白宫平面图被“共享”
  • 内部敏感文件遭万人共享,特朗普政府又曝安全漏洞
  • 为溶血性疾病治疗提供新靶点,专家团队在《细胞》发文
  • “75后”新任四川泸州市委副书记张伟,已任市政府党组书记