当前位置：首页 > news >正文

hadoop三大组件的结构及各自的作用

news 来源：原创 2025/4/21 23:42:23

1 HDFS

1.1功能 HDFS 是 Hadoop 的分布式文件系统，用于存储和管理海量数据。它具有高容错性、高吞吐量和可扩展性，能够在多个节点上存储和管理大规模数据

1.2架构：采用主从架构，由一个 NameNode 和多个 DataNode 组成。NameNode 负责管理文件1统的元数据，DataNode 负责存储实际的数据.

1.3工作原理：将大文件分割成多个固定大小的块（默认 128MB），并将这些块存储在不同的 DataNode 上，每个块会存储多个副本（默认 3 个副本），以提高数据的可靠性和容错性。当需要读取文件时，客户端会从 NameNode 获取文件的块信息，然后直接从 DataNode 读取数据。

2.YARN（Yet Another Resource Negotiator）

2.1功能：YARN 是 Hadoop 的资源管理系统，负责管理和调度集群中的计算资源，使得多个应用程序可以共享集群资源。

2.2架构：主要由 ResourceManager 和 NodeManager 组成。ResourceManager 负责整个集群的资源管理和调度，NodeManager 负责每个节点的资源管理和监控。

2.3工作原理：当应用程序提交到 YARN 时，ResourceManager 会根据资源队列的配置和应用程序的需求，将资源分配给 ApplicationMaster。ApplicationMaster 负责管理应用程序的生命周期，包括任务的分配、启动和监控。NodeManager 负责管理节点上的资源，根据 ResourceManager 的指示，分配和管理节点上的计算资源，并在需要时启动和停止容器。

3.MapReduce

3.1功能：MapReduce 是 Hadoop 的编程模型和框架，用于处理大规模数据集。它将大数据处理任务分解为多个小任务，并在集群中的多个节点上并行执行这些小任务。

3.2工作原理：MapReduce 任务分为 Map 阶段和 Reduce 阶段。Map 阶段负责处理输入数据并产生一系列的键值对，Reduce 阶段负责对 Map 阶段输出的键值对进行汇总和整理。在执行过程中，MapReduce 框架会自动进行任务的分割、调度和同步。开发人员只需要编写 Map 和 Reduce 函数即可完成数据处理任务，而无需关心底层细节。