使用 Python 将 Excel 电子表格提取为 CSV 文件

一则或许对你有用的小广告

欢迎加入小哈的星球 ,你将获得:专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...点击查看项目介绍 ;
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2 期已完结,演示链接: http://116.62.199.48/ ;

截止目前, 星球 内专栏累计输出 63w+ 字,讲解图 2808+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,权限管理,Spring Cloud Alibaba 微服务等等,已有 2200+ 小伙伴加入学习 ,欢迎点击围观

我一直在研究 Road Safety 开放数据集 ,下载时附带了几个 CSV 文件和一个包含图例的 Excel 电子表格。

总共有 45 张,每张看起来像这样:


我想为每个工作表创建一个 CSV 文件,以便我可以使用 LOAD CSV 命令 将数据集导入 Neo4j。

我遇到了 Python Excel 网站, 该网站将我指向 xlrd 库,因为我正在使用 2010 年之前的 Excel 文件。


主要文档非常广泛 ,但我发现 github 示例 更容易理解。

我最终得到了以下脚本,它遍历了电子表格中除了前两张纸之外的所有纸——前两张纸包含指令而不是数据:


 from xlrd import open_workbook
import csv

wb = open_workbook('Road-Accident-Safety-Data-Guide-1979-2004.xls')

for i in range(2, wb.nsheets): sheet = wb.sheet_by_index(i) print sheet.name with open("data/%s.csv" %(sheet.name.replace(" ","")), "w") as file: writer = csv.writer(file, delimiter = ",") print sheet, sheet.name, sheet.ncols, sheet.nrows

    header = [cell.value for cell in sheet.row(0)]
    writer.writerow(header)

    for row_idx in range(1, sheet.nrows):
        row = [int(cell.value) if isinstance(cell.value, float) else cell.value
               for cell in sheet.row(row_idx)]
        writer.writerow(row)

我已经替换了工作表名称中的空格,以便磁盘上的文件名更容易使用。出于某种原因,数值都是浮点数,而我希望它们是整数,所以我必须明确地应用该转换。

以下是 CSV 文件的一些示例:


 from xlrd import open_workbook
import csv

wb = open_workbook('Road-Accident-Safety-Data-Guide-1979-2004.xls')

for i in range(2, wb.nsheets): sheet = wb.sheet_by_index(i) print sheet.name with open("data/%s.csv" %(sheet.name.replace(" ","")), "w") as file: writer = csv.writer(file, delimiter = ",") print sheet, sheet.name, sheet.ncols, sheet.nrows

    header = [cell.value for cell in sheet.row(0)]
    writer.writerow(header)

    for row_idx in range(1, sheet.nrows):
        row = [int(cell.value) if isinstance(cell.value, float) else cell.value
               for cell in sheet.row(row_idx)]
        writer.writerow(row)

就是这样。不太难!

相关文章