当前位置：首页 > news >正文

MapReduce 第二部：深入分析与实践

news 来源：原创 2025/4/26 7:02:55

在第一部分中，我们了解了MapReduce的基本概念和如何使用Python2编写MapReduce程序进行简单的单词计数。今天，我们将深入探讨如何使用MapReduce处理更复杂的数据源，比如HDFS中的CSV文件，并将结果输出到HDFS。通过更复杂的实践案例，进一步了解MapReduce的应用。

1. 复杂的MapReduce任务概述

在实际生产环境中，数据通常存储在分布式文件系统中，例如HDFS（Hadoop Distributed File System）。MapReduce非常适合于这种场景，能够对HDFS中的大规模数据进行处理。在这部分中，我们将处理一个CSV文件，该文件存储着一些结构化的数据，例如用户访问记录或销售数据。

我们的目标是：

从HDFS中读取CSV文件。
进行数据处理（例如统计每个产品的销售总额）。
将结果输出回HDFS。
最后，使用HDFS命令检查结果。

2. 处理CSV文件的MapReduce任务

假设我们的CSV文件格式如下：

product_id,product_name,sales_amount
1,Product A,100
2,Product B,200
3,Product A,150
4,Product C,50
5,Product B,300
6,Product A,120

我们的任务是统计每个产品的总销售额，即将product_name作为键，sales_amount作为值，最终输出每个产品的销售总额。

3. 编写MapReduce代码

3.1 Mapper

在Map函数中，我们将每行CSV数据中的product_name和sales_amount提取出来，并输出成(product_name, sales_amount)的键值对。

import sys
import csv

def mapper():
    for line in sys.stdin:
        # 跳过文件的表头
        if line.startswith("product_id"):
            continue
        # 读取CSV行并提取product_name和sales_amount
        columns = line.strip().split(",")
        product_name = columns[1]
        sales_amount = int(columns[2])
        
        # 输出 (product_name, sales_amount)
        print(f"{product_name}\t{sales_amount}")

在此代码中，我们首先跳过文件头部（如果有的话），然后从每行数据中提取出产品名称和销售金额，最后输出一个以product_name为键，sales_amount为值的键值对。

3.2 Reducer

Reducer的任务是对来自Mapper的相同product_name的sales_amount进行求和，得到每个产品的总销售额。

import sys

def reducer():
    current_product = None
    total_sales = 0
    for line in sys.stdin:
        product_name, sales_amount = line.strip().split("\t")
        sales_amount = int(sales_amount)

        if current_product == product_name:
            total_sales += sales_amount
        else:
            if current_product:
                # 输出 (product_name, total_sales)
                print(f"{current_product}\t{total_sales}")
            current_product = product_name
            total_sales = sales_amount

    if current_product == product_name:
        print(f"{current_product}\t{total_sales}")

此代码的作用是对每个product_name的所有sales_amount进行求和，并输出结果。

3.3 执行MapReduce任务

现在，我们可以通过管道执行MapReduce任务，假设输入数据存储在HDFS中的/user/hadoop/input/sales.csv路径下，输出路径为/user/hadoop/output/sales_result。

在终端中执行MapReduce任务：

hadoop fs -cat /user/hadoop/input/sales.csv | python mapper.py | sort | python reducer.py > result.txt

4. 将输出结果存储到HDFS

在前面的步骤中，输出结果保存在本地文件result.txt中。我们希望将结果直接写入HDFS。

为了将输出结果直接输出到HDFS，MapReduce任务通常由Hadoop执行，Hadoop的Streaming API允许我们将Map和Reduce任务提交到集群进行处理。以下是使用Hadoop提交作业的步骤：

将Python脚本上传到HDFS。

hadoop fs -put mapper.py /user/hadoop/mapper.py
hadoop fs -put reducer.py /user/hadoop/reducer.py

提交MapReduce作业。

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
    -input /user/hadoop/input/sales.csv \
    -output /user/hadoop/output/sales_result \
    -mapper "python2 /user/hadoop/mapper.py" \
    -reducer "python2 /user/hadoop/reducer.py"

查看结果。

MapReduce作业完成后，结果会存储在指定的输出目录(/user/hadoop/output/sales_result)中。我们可以使用HDFS命令查看输出文件：

hadoop fs -cat /user/hadoop/output/sales_result/part-00000

输出结果将会类似于：

Product A    370
Product B    500
Product C    50

5. 总结与优化

在这一部分中，我们介绍了如何使用MapReduce处理存储在HDFS中的CSV文件，并将结果输出回HDFS。通过这个实例，我们看到了如何将Map和Reduce函数与Hadoop的Streaming API结合使用，处理大规模分布式数据。

需要注意的是，MapReduce虽然是一种强大的分布式计算模型，但它的效率可能受限于多个因素：

Shuffle过程：当数据量较大时，Shuffle过程可能导致网络瓶颈，影响性能。
优化Map和Reduce函数：为提高效率，可以使用适当的数据结构，避免不必要的计算，优化内存使用。

对于大数据任务，除了MapReduce，还有其他高效的处理框架（如Apache Spark），可以根据具体需求进行选择。

通过本教程，您已经能够使用MapReduce处理HDFS上的CSV数据，并将结果输出到HDFS。在实际生产环境中，这一过程可以扩展到更复杂的数据处理任务，例如日志分析、流量统计等。

pyside6学习专栏(二):程序图像资源的加载方式

Python中常见库 PyTorch和Pydantic 讲解

Python Cookbook-2.2 写入文件

ollama run deepseek-r1:1.5b改变默认下载路径

国产编辑器EverEdit - 文本编辑器的关键特性：文件变更实时监视，多头编辑不掉坑

LeetCode刷题---哈希表---648

基于springboot校园健康系统的设计与实现(源码+文档)

deepseek：推荐一个免费没有广告的电脑桌面备忘录

TikTok账户安全指南：如何取消两步验证？

easyexcel 2.2.6版本导出excel模板时，标题带下拉框及其下拉值过多不显示问题

【Python爬虫(27)】探索数据可视化的魔法世界

Pytorch实现之ISRGAN高分辨率图像生成训练自己的低分辨率图像

3dmax噪波制作镜头震动动画

【网络编程】TCP连接connect几次syn之后一直返回EINVAL问题

使用Geotools读取DEM地形数据实战-以湖南省30米数据为例

模电知识点总结（4）

leetcode:3110. 字符串的分数（python3解法）

深入学习解析：183页可编辑PPT华为市场营销MPR+LTC流程规划方案

成员函数定义后面加const是什么功能：C++中const成员函数的作用

DP-最长上升子序列

建投读书会·东西汇流｜全球物品：跨文化交流视域下的明清外销瓷

内蒙古纪检干部刘占波履新呼和浩特，曾参与涉煤腐败倒查20年工作

世联行：2024年营业收入下降27%，核心目标为“全面消除亏损公司和亏损项目”

2025全国知识产权宣传周：用AI生成的图片要小心什么？

最新研究挑战男性主导说：雌性倭黑猩猩联盟对付雄性攻击，获得主导地位

山西省援疆前方指挥部总指挥刘鹓已任忻州市委副书记