当前位置: 首页 > news >正文

SQL语句执行顺序

在SQL查询中,关键字SELECT, FROM, WHERE, GROUP BY, HAVING, 和 ORDER BY的组合使用定义了数据的筛选、分组、排序等操作。理解这些关键字的执行顺序对于构建有效且高效的查询至关重要。以下是这些关键字的执行顺序详解及案例说明:

一、执行顺序详解

  • 1、from查询表
    指定查询的数据源,既要从那个表中获取数据。如果有多个表通过JOIN连接,那么会先计算这些表的笛卡尔积,然后根据JOIN条件和ON子句进行筛选。
  • 2、on & join 链接表
    指定表之间的连接类型(如INNER JOIN、LEFT JOIN等)和连接条件。JOIN操作会在FROM子句之后进行,用于合并来自不同表的数据。
  • 3、where查询条件
    在数据分组和聚合之前,根据指定的条件筛选记录。只有满足WHERE条件的记录才会被保留下来进行后续的操作。
  • 4、group by 分组依据
    将筛选后的记录按照一个或多个列进行分组。分组后,后续的操作(如聚合函数)将作用于这些分组上。
  • 5、having 分组后的信息过滤条件
    对分组后的数据进行筛选。与WHERE子句不同,HAVING子句可以使用聚合函数。只有满足HAVING条件的分组才会被保留下来。
  • 6、select 最终展示字段
    选择需要返回的列或表达式。这包括聚合函数的结果、列的别名等。SELECT子句是在所有筛选和分组操作之后执行的。
  • 7、distinct 去重条件
    对select子句返回的结果进行去重。distinct子句通常与select子句一起使用,以确保返回的结果集中不包含重复的行。
  • 8、order by 排序字段和要求
    对查询结果进行排序。order by子句可以在select子句之后指定一个或多个列作为排序的依据。排序可以是升序ASC或降序DESC。
  • 9、limit 限制行数
    查询查询结果的行数。limit子句通常用于分页查询,可以指定从结果集的哪一行开始返回,以及返回多少行。

二、笛卡尔积

1.笛卡尔积的定义
从数学层面来看,两个集合 A 和 B 的笛卡尔积(记作 A × B),是由所有可能的有序对 (a, b) 构成的集合,其中 a 属于集合 A,b 属于集合 B。
举个例子,假设有集合 A = {1, 2} 和集合 B = {3, 4},那么它们的笛卡尔积 A × B 就是 {(1, 3), (1, 4), (2, 3), (2, 4)}。

2.SQL 中的笛卡尔积
在 SQL 中,当你把多个表进行 JOIN 操作时,数据库系统一开始会算出这些表的笛卡尔积。也就是把第一个表的每一行和第二个表的每一行组合起来,从而形成一个新的结果集。
下面通过一个简单的 SQL 示例来理解:

-- 创建表A
CREATE TABLE table_a (id INT,name VARCHAR(50)
);-- 插入数据到表A
INSERT INTO table_a (id, name) VALUES
(1, 'Alice'),
(2, 'Bob');-- 创建表B
CREATE TABLE table_b (id INT,city VARCHAR(50)
);-- 插入数据到表B
INSERT INTO table_b (id, city) VALUES
(1, 'New York'),
(2, 'Los Angeles');-- 执行 CROSS JOIN 操作(CROSS JOIN 会直接返回两个表的笛卡尔积)
SELECT * FROM table_a CROSS JOIN table_b;

在这个例子里,table_a 有 2 行数据,table_b 也有 2 行数据。执行 CROSS JOIN 时,会生成一个包含 2 * 2 = 4 行数据的结果集,这就是这两个表的笛卡尔积。

3.结合 JOIN 条件和 ON 子句进行筛选
在实际的 SQL 查询中,通常会使用 JOIN 条件和 ON 子句来筛选出符合要求的行,从而减少笛卡尔积的结果集大小。比如:

SELECT * FROM table_a JOIN table_b ON table_a.id = table_b.id;

在这个查询中,数据库系统会先算出 table_a 和 table_b 的笛卡尔积,接着根据 ON 子句中的条件 table_a.id = table_b.id 来筛选出符合条件的行,最终得到的结果集就会比笛卡尔积小很多。

三、案例分析

案例1:查询每个部门的员工数量,并按员工数量降序排序

SELECTdepartment,COUNT(*)ASemployee_count
FROMemployees
GROUPBYdepartment
ORDERBYemployee_countDESC;
  • 执行顺序:
    1.FROM employees:从employees表中获取数据。
    2.GROUP BY department:按department字段分组。
    3.SELECT department, COUNT() AS employee_count:选择department字段和每个部门的员工数量(COUNT()),并给员工数量起个别名employee_count。
    4.ORDER BY employee_count DESC:按员工数量降序排序。

案例2:查询销售额超过1000的订单,按客户ID分组,计算每个客户的总销售额,并按总销售额升序排序,只返回前5条记录

SELECTcustomer_id,SUM(sales_amount)AStotal_sales
FROMorders
WHEREsales_amount>1000
GROUPBYcustomer_id
HAVINGSUM(sales_amount)>0-- 这一步其实可以省略,因为SUM(sales_amount) > 0总是成立的,但为了展示HAVING的用法,这里保留
ORDERBYtotal_salesASC
LIMIT5;
  • 执行顺序:
    1.FROM orders:从orders表中获取数据。
    2.WHERE sales_amount > 1000:筛选数据,只保留销售额超过1000的订单。
    3.GROUP BY customer_id:按customer_id字段分组。
    4.HAVING SUM(sales_amount) > 0:对分组后的数据进行筛选(虽然这一步在这个案例中是多余的,但展示了HAVING的用法)。
    5.SELECT customer_id, SUM(sales_amount) AS total_sales:选择customer_id字段和每个客户的总销售额(SUM(sales_amount)),并给总销售额起个别名total_sales。
    6.ORDER BY total_sales ASC:按总销售额升序排序。
    7.LIMIT 5:只返回前5条记录。

案例3:找出女生在每门课程中的平均成绩大于75分的课程名称及其平均成绩,并按照平均成绩降序排列。

SELECTcourse,AVG(score)ASaverage_score
FROMstudents
JOINscoresONstudents.student_id=scores.student_id
WHEREgender='Female'
GROUPBYcourse
HAVINGAVG(score)>75
ORDERBYaverage_scoreDESC;
  • FROM子句和JOIN操作
    首先执行FROM子句,这里涉及两个表students和scores。通过JOIN操作将两个表连接起来,连接条件是students.student_id = scores.student_id。这样就构建了一个包含所有学生及其成绩信息的初始数据集。
  • WHERE子句
    接着执行WHERE子句,筛选出gender = 'Female’的数据行。经过这一步,数据集只剩下女生的成绩信息
  • GROUP BY子句
    然后执行GROUP BY子句,按照course列对数据进行分组。此时数据被分为两组,一组是“Math”课程,一组是“English”课程。
  • HAVING子句
    再执行HAVING子句,对于每个分组,计算AVG(score),并筛选出平均成绩大于75分的组。在这个例子中,“Math”组的平均成绩为(80 + 90)/2 = 85,“English”组的平均成绩为(70 + 85)/2 = 77.5,两个组都满足条件,所以这两个组的数据都被保留。
  • SELECT子句
    接下来执行SELECT子句,选择course列和计算得到的平均成绩AVG(score)作为average_score列。
  • ORDER BY子句
    最后执行ORDER BY子句,按照average_score列进行降序排列。

四、总结

在实际的 SQL 查询中,执行计划的确是决定查询如何执行的关键依据,而不是按照 SQL 语句的书写顺序来执行。
通常,SQL 优化器会根据表的大小、索引情况、筛选条件等多方面因素来生成最优的执行计划。例如,当存在合适的索引时,数据库可能直接通过索引来获取数据,而无需访问实际的表数据,这就是所谓的 “索引扫描”。另外,关于JOIN和WHERE的执行顺序,优化器会优先筛选出尽可能少的数据,以减少后续JOIN操作的工作量,所以可能会先执行WHERE条件过滤主表,再处理JOIN操作。

相关文章:

  • 手撕LLM(五):从源码出发,探索多模态VL模型的推理全流程
  • 线性DP:最长上升子序列(子序列可不连续,子数组必须连续)
  • 多态的学习与了解
  • Java【网络原理】(4)HTTP协议
  • 5.1 掌握函数定义与参数传递的奥秘
  • RNN的理解
  • 小刚说C语言刷题——1049 汉译英
  • 1222222
  • Linux 动、静态库的实现
  • 滑动时间窗口实现重试限流
  • 解决模拟器打开小红书设备异常问题
  • SpringBoot入门实战(第一篇:环境准备和项目初始化)
  • 深度可分离卷积与普通卷积的区别及原理
  • 【数据库】事务
  • 深入剖析Java并发编程原理:从底层到实践
  • C++move的作用和原理
  • LeetCode每日一题4.20
  • 模拟实现memmove,memcpy,memset
  • iPhone 13P 换超容电池,一年实记的“电池循环次数-容量“柱状图
  • ebpf: CO-RE, BTF, and Libbpf(三)
  • 发布近百条《原神》涉密游戏内容,游戏资讯网站被判赔33万元
  • “棉花糖爸爸”陈生梨:女儿将落户到贵州纳雍
  • 错失两局领先浪费赛点,王楚钦不敌雨果无缘世界杯男单决赛
  • 希音、Temu告知美国消费者4月25日起涨价:关税变化导致运营成本上升
  • 肯尼亚总统鲁托将访华
  • 习近平抵达柬埔寨首都金边