首页
/ 正文

Python 获取列表中的所有唯一元素（手把手讲解）

更新时间: 2025-04-14 04:07:17

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新项目:《从零手撸：仿小红书（微服务架构）》 正在持续爆肝中，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 90w+ 字，讲解图 3441+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3100+ 小伙伴加入学习，欢迎点击围观

前言：为什么需要获取列表的唯一元素？

在编程中，列表（List）如同一个装满物品的购物篮，常常会因为重复添加元素而出现冗余。例如，用户可能多次点击购物车中的同一商品，日志文件中可能重复记录相同的操作，或者数据清洗时需要排除重复的观测值。Python 获取列表中的所有唯一元素是解决这类问题的核心技能。本文将从基础概念到高级技巧，逐步讲解如何高效实现这一目标。

方法一：使用集合（Set）快速去重

集合的基本原理

Python 的 集合（Set） 是一种无序且不允许重复元素的数据结构。将列表转换为集合时，会自动删除所有重复项。这一特性使其成为去重的“瑞士军刀”。不过，集合的无序性可能影响原始顺序，需结合其他方法恢复。

代码示例：基础用法

original_list = [1, 2, 2, 3, 4, 4, 5]
unique_elements = list(set(original_list))
print(unique_elements)  # 输出可能为 [1, 2, 3, 4, 5]（顺序不固定）

注意事项

顺序丢失：集合不保留元素的原始顺序。若需保持顺序，可结合字典（Python 3.7+ 有序特性）或手动遍历。
元素可哈希性：集合中的元素必须是不可变类型（如整数、字符串），无法直接处理列表等可变对象。

方法二：列表推导式与条件判断

核心思想：遍历与筛选

通过遍历列表，逐个检查元素是否已存在于结果列表中。这种方法能保留原始顺序，但时间复杂度为 O(n²)，适合小规模数据。

代码示例：逐步构建唯一列表

original_list = ["apple", "banana", "apple", "orange", "banana"]
unique_list = []
for item in original_list:
    if item not in unique_list:
        unique_list.append(item)
print(unique_list)  # 输出：["apple", "banana", "orange"]

深入理解：为什么有效？

遍历逻辑：像整理书架一样，逐本检查书籍是否已存在目标书架（unique_list）。
性能瓶颈：if item not in ... 每次遍历都要扫描整个结果列表，导致效率下降。

方法三：使用 `collections.Counter` 统计频次

引入统计工具

collections.Counter 可统计列表中每个元素的出现次数。通过筛选次数为1的元素，可间接获取唯一项。此方法适合需要了解元素分布的场景。

代码示例：统计与筛选

from collections import Counter

original_list = [10, 20, 20, 30, 40, 40, 40]
counter = Counter(original_list)
unique_elements = [k for k, v in counter.items() if v == 1]
print(unique_elements)  # 输出：[10, 30]

扩展应用

若需保留所有出现次数 ≥1 的元素（即简单去重），可直接使用 counter.keys()，但需注意顺序可能打乱。

方法四：结合字典保持顺序（Python 3.7+）

利用字典的有序特性

Python 3.7+ 的字典默认保持插入顺序。通过将元素作为键存入字典，可同时实现去重与顺序保留。

代码示例：字典键去重法

original_list = [5, 3, 2, 3, 5, 1, 2, 4]
unique_dict = {x: None for x in original_list}
unique_list = list(unique_dict.keys())
print(unique_list)  # 输出：[5, 3, 2, 1, 4]

性能优势

时间复杂度为 O(n)，效率高于列表推导式。
适合需要同时保留顺序和去重的场景。

方法五：生成器表达式优化内存

场景：处理超大列表

当列表包含数十万甚至百万元素时，内存占用可能成为瓶颈。生成器表达式可逐个处理元素，降低内存峰值。

代码示例：生成器与集合结合

def unique_generator(lst):
    seen = set()
    for item in lst:
        if item not in seen:
            seen.add(item)
            yield item

original_list = [1, 2, 2, 3, 4, 4]
unique_list = list(unique_generator(original_list))
print(unique_list)  # 输出：[1, 2, 3, 4]

关键点解析

惰性计算：生成器仅在迭代时生成结果，避免一次性加载全部数据。
空间换时间：通过 seen 集合记录已出现的元素，时间复杂度为 O(n)。

性能对比与场景选择

时间复杂度分析

方法	时间复杂度	是否保留顺序	备注
集合转换	O(n)	否	最快但打乱顺序
列表推导式逐项检查	O(n²)	是	适合小数据量
字典键去重法	O(n)	是	推荐方案（Python 3.7+）
Counter 统计	O(n)	否	需额外统计信息时适用
生成器与集合	O(n)	是	处理大数据时更优

选择建议

快速简单：首选集合转换，若顺序不重要。
保留顺序：使用字典键或生成器方法。
统计需求：搭配 Counter 获取详细频次信息。

实战案例：从理论到应用

案例1：购物车去重

cart = ["shirt", "pants", "shirt", "hat"]
unique_cart = list({item: None for item in cart}.keys())
print("唯一商品列表:", unique_cart)  # 输出：["shirt", "pants", "hat"]

案例2：日志分析

logs = ["Error404", "Error500", "Error404", "Error503"]
unique_errors = list(set(logs))
print("唯一错误类型:", unique_errors)  # 输出：["Error404", "Error500", "Error503"]

案例3：数据清洗

sensor_data = [23.5, 24.1, 24.1, 23.5, 22.8]
clean_data = list(dict.fromkeys(sensor_data))
print("清洗后的数据:", clean_data)  # 输出：[23.5, 24.1, 22.8]

常见问题与解决方案

Q1：如何处理嵌套列表的去重？

若列表元素是可变对象（如列表），需先转换为元组：

nested_list = [[1, 2], [1, 2], [3, 4]]
unique = list({tuple(item) for item in nested_list})
unique = [list(t) for t in unique]

Q2：如何获取出现次数最多的唯一元素？

结合 Counter 的 most_common() 方法：

from collections import Counter
lst = [1, 2, 2, 3, 3, 3]
counts = Counter(lst)
most_common_unique = counts.most_common(1)[0][0]

结论：选择最适合你的方法

Python 提供了多种获取列表唯一元素的工具，每种方法都有其适用场景：

追求速度：集合转换或字典键法。
保留顺序：优先使用 Python 3.7+ 的字典特性。
处理大数据：生成器表达式优化内存。

理解时间复杂度与数据特性是关键。在实际开发中，建议先尝试最简洁的集合转换，再根据需求调整策略。通过本文的实践案例，你已掌握了从基础到进阶的去重技巧，可以灵活应对各类项目中的重复元素问题。