首页
/ 正文

Python 查找列表中的重复元素（超详细）

更新时间: 2025-04-13 13:57:02

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 90w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3100+ 小伙伴加入学习，欢迎点击围观

前言

在 Python 开发中，列表（list）是一种常用的数据结构，用于存储有序且可变的元素集合。然而，随着数据规模的增长，列表中可能出现重复元素。例如，用户输入的数据、爬取的网页内容或日志文件中，重复项可能影响程序的逻辑判断或数据处理效率。因此，Python 查找列表中的重复元素是一项基础且实用的技能。本文将从零开始，通过代码示例、形象比喻和实际案例，逐步讲解如何高效完成这一任务，并帮助读者理解不同方法的适用场景。

一、基础概念：列表与重复元素

1.1 什么是列表？

在 Python 中，列表用方括号 [] 定义，可以存储任意类型的元素，如数字、字符串甚至其他列表。例如：

my_list = [10, "apple", 3.14, [1, 2]]

列表的有序性和可变性是其核心特性：元素的位置会被保留，且可以通过索引修改或添加元素。

1.2 重复元素的定义

重复元素指列表中值相同的元素。例如列表 [1, 2, 2, 3] 中，数字 2 出现了两次，即为重复元素。需要注意的是，重复元素的判断基于值的相等性，而非存储位置。

二、方法一：循环遍历与计数

2.1 基础思路：逐个统计

最直观的方法是遍历列表，逐个统计每个元素出现的次数。如果某个元素的出现次数大于 1，则说明是重复元素。

示例代码：

def find_duplicates_loop(lst):  
    count_dict = {}  
    duplicates = []  
    for item in lst:  
        if item in count_dict:  
            count_dict[item] += 1  
        else:  
            count_dict[item] = 1  
    for key, value in count_dict.items():  
        if value > 1:  
            duplicates.append(key)  
    return duplicates  

test_list = [1, 2, 3, 2, 4, 5, 5]  
print(find_duplicates_loop(test_list))  # 输出：[2, 5]

形象比喻：

想象你在整理超市货架上的商品，每扫描一个商品条形码，就在笔记本上记录该商品出现的次数。当某商品的记录次数超过一次时，你就会标记它为“重复商品”。

三、方法二：集合（Set）的去重特性

3.1 集合的基本原理

集合是 Python 中一种无序且不包含重复元素的数据结构。利用这一特性，可以快速找出重复元素。

关键步骤：

将列表转换为集合，去除重复元素；
比较原列表和集合的长度，若长度不同，则存在重复元素；
进一步通过循环找出具体重复项。

示例代码：

def find_duplicates_set(lst):  
    seen = set()  
    duplicates = []  
    for item in lst:  
        if item in seen:  
            duplicates.append(item)  
        else:  
            seen.add(item)  
    return list(set(duplicates))  # 去重结果  

test_list = [1, 2, 3, 2, 4, 5, 5]  
print(find_duplicates_set(test_list))  # 输出：[2, 5]

形象比喻：

集合就像一个“安检门”——每个元素进入时，安检门会检查是否已存在。如果存在，则触发警报（标记为重复）；若不存在，则放行并记录。

四、方法三：字典（Dictionary）的键值对特性

4.1 字典的高效计数

字典通过键值对存储数据，键的唯一性使其成为计数的天然工具。

示例代码：

def find_duplicates_dict(lst):  
    count_dict = {}  
    for item in lst:  
        count_dict[item] = count_dict.get(item, 0) + 1  
    return [k for k, v in count_dict.items() if v > 1]  

test_list = [1, 2, 3, 2, 4, 5, 5]  
print(find_duplicates_dict(test_list))  # 输出：[2, 5]

形象比喻：

字典如同图书馆的分类目录，每个书名（键）对应借阅次数（值）。通过遍历书籍并更新目录，可以快速找到被多人借阅的“热门书籍”。

五、方法四：使用内置库 `collections.Counter`

5.1 库函数的优势

Python 的 collections 模块提供了 Counter 类，专门用于统计可哈希对象的出现次数，简化代码编写。

示例代码：

from collections import Counter  

def find_duplicates_counter(lst):  
    count = Counter(lst)  
    return [item for item, freq in count.items() if freq > 1]  

test_list = [1, 2, 3, 2, 4, 5, 5]  
print(find_duplicates_counter(test_list))  # 输出：[2, 5]

形象比喻：

Counter 就像一位“统计专家”，自动帮你整理数据并生成报告，省去了手动计数的麻烦。

六、性能对比与场景选择

6.1 时间复杂度分析

方法	时间复杂度	空间复杂度	适用场景
循环遍历 + 字典	O(n)	O(n)	通用场景，代码简洁性要求高
集合	O(n)	O(n)	需要快速标记重复项
`collections.Counter`	O(n)	O(n)	需要统计所有元素出现的频率

6.2 选择建议

简单场景：推荐使用集合或 Counter，代码简洁且直观；
需要详细统计：选择字典或 Counter，可获取每个元素的出现次数；
内存敏感场景：若列表极大，需评估字典或集合的内存占用。

七、进阶案例：处理复杂数据类型

7.1 处理嵌套列表

当列表元素是可变对象（如字典）时，需先转换为可哈希类型（如元组），再利用集合去重。

示例代码：

def find_duplicates_nested(lst):  
    seen = set()  
    duplicates = []  
    for item in lst:  
        # 将字典转换为元组以便哈希  
        key = tuple(sorted(item.items()))  
        if key in seen:  
            duplicates.append(item)  
        else:  
            seen.add(key)  
    return duplicates  

test_list = [  
    {"name": "Alice", "age": 20},  
    {"name": "Bob", "age": 25},  
    {"name": "Alice", "age": 20}  
]  
print(find_duplicates_nested(test_list))  # 输出：[{"name": "Alice", "age": 20}]

八、结论

本文通过循环遍历、集合、字典和 Counter 四种方法，系统讲解了Python 查找列表中的重复元素的实现方式，并结合实际案例和性能分析，帮助读者理解不同方法的优劣。对于编程初学者，建议从集合和 Counter 入手，逐步掌握基础逻辑；中级开发者则可结合具体场景，选择最优解。

记住：重复元素的查找不仅是技术问题，更是数据清洗和程序优化的关键步骤。通过本文的方法，你将能够更高效地处理实际开发中的列表数据，提升代码的健壮性和可维护性。

Python 查找列表中的重复元素（超详细）

前言

一、基础概念：列表与重复元素

1.1 什么是列表？

1.2 重复元素的定义

二、方法一：循环遍历与计数

2.1 基础思路：逐个统计

示例代码：

形象比喻：

三、方法二：集合（Set）的去重特性

3.1 集合的基本原理

关键步骤：

示例代码：

形象比喻：

四、方法三：字典（Dictionary）的键值对特性

4.1 字典的高效计数

示例代码：

形象比喻：

五、方法四：使用内置库 `collections.Counter`

5.1 库函数的优势

示例代码：

形象比喻：

六、性能对比与场景选择

6.1 时间复杂度分析

6.2 选择建议

七、进阶案例：处理复杂数据类型

7.1 处理嵌套列表

示例代码：

八、结论

最新发布

DataGrip 2025.1 最新激活码，破解版安装教程（至2099年~）

Webstorm 2025.1 最新激活码，破解版安装教程（至2099年~）

Pycharm 2025.1 最新激活码，破解版安装教程（至2099年~）

IDEA 2025.1 最新激活码，破解版安装教程（至2099年~）

Cursor @ 符号（千字长文）

POP3 协议（一文讲透）

IMAP 协议（保姆级教程）

RDP 协议（建议收藏）

SFTP 协议（保姆级教程）

UDP 协议（长文解析）

Python 查找列表中的重复元素（超详细）

前言

一、基础概念：列表与重复元素

1.1 什么是列表？

1.2 重复元素的定义

二、方法一：循环遍历与计数

2.1 基础思路：逐个统计

示例代码：

形象比喻：

三、方法二：集合（Set）的去重特性

3.1 集合的基本原理

关键步骤：

示例代码：

形象比喻：

四、方法三：字典（Dictionary）的键值对特性

4.1 字典的高效计数

示例代码：

形象比喻：

五、方法四：使用内置库 collections.Counter

5.1 库函数的优势

示例代码：

形象比喻：

六、性能对比与场景选择

6.1 时间复杂度分析

6.2 选择建议

七、进阶案例：处理复杂数据类型

7.1 处理嵌套列表

示例代码：

八、结论

最新发布

DataGrip 2025.1 最新激活码，破解版安装教程（至2099年~）

Webstorm 2025.1 最新激活码，破解版安装教程（至2099年~）

Pycharm 2025.1 最新激活码，破解版安装教程（至2099年~）

IDEA 2025.1 最新激活码，破解版安装教程（至2099年~）

Cursor @ 符号（千字长文）

POP3 协议（一文讲透）

IMAP 协议（保姆级教程）

RDP 协议（建议收藏）

SFTP 协议（保姆级教程）

UDP 协议（长文解析）

五、方法四：使用内置库 `collections.Counter`