当前位置：首页 > news >正文

大数据学习（111）-group by与partition by

news 来源：原创 2025/4/23 9:39:11

🍋🍋大数据学习🍋🍋

🔥系列专栏： 👑哲学语录: 用力所能及，改变世界。
💖如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

PARTITION BY 和 GROUP BY 是 SQL 中用于数据分组或划分的两个不同概念，尽管它们在某些场景下看起来可能相似，但它们的目的和用法有显著的区别。

目的：
- GROUP BY 用于将查询结果按一个或多个列进行分组，并对每组数据执行聚合操作（如 SUM、AVG、COUNT 等）。
- 它通常用于生成汇总信息。
特点：
- GROUP BY 会对结果集进行聚合，最终返回的结果集是分组后的数据，原始行可能会被合并。
- 适用于需要统计或汇总数据的场景。
语法示例：
```
SELECT department, COUNT(*) AS employee_countFROM employeesGROUP BY department;
```
解释：
- 按 department 列分组，并统计每个部门的员工数量。
- 返回的结果集中，每个部门只有一行数据。

目的：
- PARTITION BY 是窗口函数（Window Function）的一部分，用于将数据划分为逻辑上的分区（partition），然后在每个分区内执行计算。
- 它不会减少结果集的行数，而是为每一行分配一个分区，并基于分区内的数据执行计算。
特点：
- PARTITION BY 不会对数据进行聚合，而是保持原始行，并在每个分区内计算结果（如排名、累计和等）。
- 常用于需要分析每个分区内的数据，但又不希望丢失原始行信息的场景。
语法示例：
```
SELECT employee_id, department, salary,
RANK() OVER (PARTITION BY department ORDER BY salary DESC) AS rank_in_department
FROM employees;
```
解释：
- 按 department 列划分分区，并在每个分区内根据 salary 降序为每个员工分配排名。
- 返回的结果集中，每个员工仍然有一行数据，只是增加了一列 rank_in_department。