SQL性能优化：IN 与 EXISTS 的区别及选型

你在简历中提到了SQL优化，请详细解释一下 IN 和 EXISTS 的区别？在什么场景下应该选择哪一个？除了死记硬背的口诀，在实际业务开发中你是如何决策的？

考察点

基本原理与区别：

执行流程不同：
- IN：通常先执行子查询，将结果集（Result Set）查询出来放入临时表（此时相当于把子查询的数据缓存起来）。然后将外层查询的数据与这个临时表进行对比。
- EXISTS：不仅关心数据，更关心“状态”。它采用循环的方式，遍历外层查询（Outer Query）的每一行数据，拿去子查询中做条件验证。
核心优势差异：
- EXISTS 的优势（短路机制）：只要在子查询中找到第一条匹配记录，就会立即返回 true 并停止对该条记录的后续扫描。因此，当子查询涉及的表很大（大表）时，EXISTS 往往更高效。
- IN 的劣势（内存/临时表）：如果子查询返回的结果集非常大，IN 会构建一个庞大的临时表，导致内存压力和遍历性能下降。

场景选择（从理论到实战）：

理论原则（小表驱动大表）：
- 如果子查询结果集小（小表），外层表大，优先用 IN。
- 如果子查询表大（大表），外层表小，优先用 EXISTS。
特殊情况（NULL值）：
- 如果数据中涉及 NULL 值，尽量使用 EXISTS。因为 IN 在处理 NULL 时逻辑较为复杂（例如 NOT IN 遇到 NULL 会导致整个查询返回空），容易踩坑。
实战中的真实选择：
1. 绝大多数场景（JOIN）：工作中80%~90%的情况，我们需要同时获取两张表的数据（例如既要用户信息又要订单详情），此时既不用 IN 也不用 EXISTS，而是直接使用 JOIN（内连接/左连接）。
2. 纯判断存在性：如果业务只需要判断“有没有”（例如：该用户是否有未支付订单），不需要订单详情，优先用 EXISTS。
3. 固定集合/小范围：如果是明确的几个状态码（如 status IN (1, 3, 5)），放心用 IN。
4. 相信执行计划：理论归理论，MySQL 优化器非常智能，有时会自动将 IN 优化为 EXISTS 或 SEMI-JOIN。因此，必须使用 EXPLAIN 查看执行计划来进行最终的性能调优。

你提到 JOIN 是最常用的，那 JOIN、IN、EXISTS 在性能上有什么具体的排序吗？
- 考察 Semi-join 优化以及驱动表的选择逻辑。
为什么说 NOT IN 遇到 NULL 值会有问题？具体表现是什么？
- 考察对 SQL 三值逻辑（True, False, Unknown）的理解。
在使用 EXPLAIN 优化 SQL 时，你主要关注哪几个字段？
- 考察 type (all, range, ref, const), key (是否用到索引), rows (扫描行数), extra (using filesort, using temporary)。