首页
/ 正文

SQLite Group By（手把手讲解）

更新时间: 2025-04-03 10:39:06

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 82w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 2900+ 小伙伴加入学习，欢迎点击围观

前言：从生活场景理解 SQLite Group By 的核心作用

在数据处理领域，"分组统计"是一个高频需求场景。想象这样一个场景：超市经理需要统计每个品类的总销售额，或者电商运营人员想查看不同地区的订单数量分布。在 SQLite 这个轻量级数据库中，GROUP BY 子句正是实现这类需求的核心工具。它如同数据世界的分类器，能将海量数据按照指定规则划分成多个逻辑组别，再对每个组别执行统计计算。

本文将通过生活化比喻、阶梯式案例和代码实战，帮助编程学习者系统掌握 SQLite GROUP BY 的使用逻辑。从基础语法到复杂场景，从常见错误到性能优化，逐步构建完整的知识体系。

一、基础语法：GROUP BY 的核心用法解析

1.1 基础语法结构

SELECT 列名1, 列名2, 聚合函数(列名)
FROM 表名
GROUP BY 列名1, 列名2;

1.2 理解分组机制

可以把 GROUP BY 理解为数据的"分拣流水线"：

分拣台：GROUP BY 指定的列作为分拣依据
传送带：每条记录被送入对应分组的"缓冲区"
统计站：每个分组内部执行聚合计算（如总和、计数等）

示例场景：某书店销售记录表

CREATE TABLE sales (
  book_id INTEGER,
  category TEXT,
  price REAL,
  quantity INTEGER
);

1.3 简单分组案例

SELECT category, SUM(quantity) AS total_sales
FROM sales
GROUP BY category;

此查询会将书籍按"分类"分组，计算每个分类的销售总量。输出结果类似：

| category   | total_sales |
|------------|-------------|
| Fiction    | 245         |
| Non-Fiction| 189         |
| Tech       | 98          |

二、聚合函数：分组统计的核心工具

2.1 常用聚合函数列表

函数名	功能描述	示例
COUNT()	统计行数	COUNT(*)
SUM()	计算数值列总和	SUM(price)
AVG()	计算数值列平均值	AVG(quantity)
MAX()/MIN()	获取数值列的最大/最小值	MAX(sale_date)

2.2 聚合函数使用规则

必须配合 GROUP BY 使用：单独使用聚合函数会返回全表统计结果
列引用规则：SELECT 中非聚合列必须出现在 GROUP BY 子句中

错误示例：

SELECT book_id, AVG(price)
FROM sales
GROUP BY category; -- 错误！book_id 未包含在分组条件中

三、进阶用法：多条件分组与复合统计

3.1 多列分组场景

SELECT category, book_id, AVG(price) AS avg_price
FROM sales
GROUP BY category, book_id;

此查询会先按"分类"分组，再在每个分类内部按"书籍ID"二次分组，最终统计每个具体书籍的平均价格。

3.2 嵌套聚合函数

SELECT category, 
       COUNT(DISTINCT book_id) AS unique_books,
       SUM(quantity) AS total_units
FROM sales
GROUP BY category;

通过嵌套使用 COUNT(DISTINCT) 和 SUM，可以同时统计每个分类的"书籍种类数"和"总销售量"。

四、HAVING 子句：分组后的过滤机制

4.1 HAVING 与 WHERE 的区别

WHERE：在分组前过滤原始数据（行级过滤）
HAVING：在分组后过滤结果集（组级过滤）

对比示例：

-- 显示销售总量超过200的分类
SELECT category, SUM(quantity) AS total
FROM sales
GROUP BY category
HAVING total > 200;

4.2 复杂条件过滤

SELECT category, 
       AVG(price) AS avg_price
FROM sales
GROUP BY category
HAVING AVG(price) > 50
   AND COUNT(*) >= 5; -- 要求至少包含5种书籍

五、实战案例：电商销售数据分析

5.1 数据准备

CREATE TABLE orders (
  order_id INTEGER PRIMARY KEY,
  customer_id INTEGER,
  region TEXT,
  product_type TEXT,
  order_date DATE,
  amount REAL
);

INSERT INTO orders VALUES
(1, 101, 'North', 'Electronics', '2023-01-15', 300),
(2, 102, 'South', 'Clothing', '2023-01-16', 89),
(3, 101, 'North', 'Books', '2023-01-17', 45),
... -- 假设有大量类似数据

5.2 多维度分析

案例1：区域与品类的销售交叉分析

SELECT region, product_type,
       SUM(amount) AS total_sales,
       COUNT(DISTINCT customer_id) AS unique_customers
FROM orders
GROUP BY region, product_type
ORDER BY total_sales DESC;

案例2：年度销售趋势分析

SELECT strftime('%Y', order_date) AS year,
       AVG(amount) AS avg_order_value
FROM orders
GROUP BY year;

六、常见问题与解决方案

6.1 错误：non-aggregate columns must appear in GROUP BY

错误原因：SELECT 中存在未聚合且未分组的列
解决方案：将该列加入 GROUP BY，或使用聚合函数处理

6.2 性能优化技巧

索引优化：在分组列上创建索引（如 CREATE INDEX idx_category ON sales(category)）
避免过度分组：优先在应用层处理非必要分组逻辑
使用窗口函数替代：当需要保留原始行数据时，考虑 OVER() 子句

七、与 MySQL 等数据库的差异对比

SQLite 的 GROUP BY 行为符合 SQL 标准，但与某些数据库存在细节差异：

MySQL 的扩展语法：允许省略 GROUP BY 中的部分列（需开启 ONLY_FULL_GROUP_BY）
NULL 处理：所有 NULL 值会被视为同一组进行分组

八、最佳实践与学习建议

8.1 使用技巧

可视化辅助：用流程图绘制分组-聚合流程
逐步调试：先用 SELECT * 查看原始数据分布
文档参考：SQLite 官方文档的分组示例（https://www.sqlite.org/lang_select.html）

8.2 进阶学习路径

窗口函数（Window Functions）
Common Table Expressions (CTE)
多表关联与分组结合使用

结论：掌握分组技术的数据思维升级

通过系统学习 SQLite GROUP BY，开发者不仅能提升 SQL 编写能力，更重要的是培养了数据分层分析的思维模式。从简单的"统计总数"到复杂的"多维度交叉分析"，这种能力将成为处理真实业务场景的核心竞争力。建议读者通过实际项目持续练习，逐步掌握数据分组与聚合的无限可能。

提示：本文案例代码均可在 SQLite 命令行工具或 DB Browser for SQLite 中直接执行测试。