首页
/ 正文

使用 Python 将 Excel 电子表格提取为 CSV 文件

更新时间: 2023-03-03 11:51:35

💡一则或许对你有用的小广告

欢迎加入小哈的星球 ，你将获得：专属的项目实战(已更新的所有项目都能学习) / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

新开坑项目:《Spring AI 项目实战》 正在持续爆肝中，基于 Spring AI + Spring Boot 3.x + JDK 21...， 点击查看 ;

《从零手撸：仿小红书（微服务架构）》 已完结，基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...，点击查看项目介绍 ;演示链接： http://116.62.199.48:7070 ;

《从零手撸：前后端分离博客项目（全栈开发）》 2 期已完结，演示链接： http://116.62.199.48/ ;

截止目前，星球内专栏累计输出 100w+ 字，讲解图 4013+ 张，还在持续爆肝中.. 后续还会上新更多项目，目标是将 Java 领域典型的项目都整一波，如秒杀系统, 在线商城, IM 即时通讯，权限管理，Spring Cloud Alibaba 微服务等等，已有 3700+ 小伙伴加入学习，欢迎点击围观

我一直在研究 Road Safety 开放数据集，下载时附带了几个 CSV 文件和一个包含图例的 Excel 电子表格。

总共有 45 张，每张看起来像这样：

我想为每个工作表创建一个 CSV 文件，以便我可以使用 LOAD CSV 命令将数据集导入 Neo4j。

我遇到了 Python Excel 网站，该网站将我指向 xlrd 库，因为我正在使用 2010 年之前的 Excel 文件。

主要文档非常广泛，但我发现 github 示例更容易理解。

我最终得到了以下脚本，它遍历了电子表格中除了前两张纸之外的所有纸——前两张纸包含指令而不是数据：


 from xlrd import open_workbook
import csv
wb = open_workbook('Road-Accident-Safety-Data-Guide-1979-2004.xls')
for i in range(2, wb.nsheets):
sheet = wb.sheet_by_index(i)
print sheet.name
with open("data/%s.csv" %(sheet.name.replace(" ","")), "w") as file:
writer = csv.writer(file, delimiter = ",")
print sheet, sheet.name, sheet.ncols, sheet.nrows
    header = [cell.value for cell in sheet.row(0)]
    writer.writerow(header)

    for row_idx in range(1, sheet.nrows):
        row = [int(cell.value) if isinstance(cell.value, float) else cell.value
               for cell in sheet.row(row_idx)]
        writer.writerow(row)

我已经替换了工作表名称中的空格，以便磁盘上的文件名更容易使用。出于某种原因，数值都是浮点数，而我希望它们是整数，所以我必须明确地应用该转换。

以下是 CSV 文件的一些示例：


 from xlrd import open_workbook
import csv
wb = open_workbook('Road-Accident-Safety-Data-Guide-1979-2004.xls')
for i in range(2, wb.nsheets):
sheet = wb.sheet_by_index(i)
print sheet.name
with open("data/%s.csv" %(sheet.name.replace(" ","")), "w") as file:
writer = csv.writer(file, delimiter = ",")
print sheet, sheet.name, sheet.ncols, sheet.nrows
    header = [cell.value for cell in sheet.row(0)]
    writer.writerow(header)

    for row_idx in range(1, sheet.nrows):
        row = [int(cell.value) if isinstance(cell.value, float) else cell.value
               for cell in sheet.row(row_idx)]
        writer.writerow(row)

就是这样。不太难！

使用 Python 将 Excel 电子表格提取为 CSV 文件

最新发布

Pycharm 2026.1.2 最新激活码，破解版安装教程（亲测至2099年）

IDEA 2026.1.2 最新激活码，破解版安装教程（亲测至2099年）

DataSpell 2026.1.1 最新激活码,破解版安装教程（亲测至2099年）

DataGrip 2026.1.3 最新激活码,破解版安装教程（亲测至2099年）

Rider 2026.1.1 最新激活码，破解版安装教程（亲测至2099年~）

Clion 2026.1.1 最新激活码，破解版安装教程（亲测至2099年~）

GoLand 2026.1.1 最新激活码，破解版安装教程（亲测至2099年~）

Webstorm 2026.1.1 最新激活码，破解版安装教程（亲测至2099年~）

PhpStorm 2026.1.1 最新激活码，破解版安装教程（亲测至2099年~）

IDEA 2026.1.1 最新激活码，破解版安装教程（亲测至2099年~）