我一直在研究 Road Safety 开放数据集 ,下载时附带了几个 CSV 文件和一个包含图例的 Excel 电子表格。
总共有 45 张,每张看起来像这样:
我想为每个工作表创建一个 CSV 文件,以便我可以使用 LOAD CSV 命令 将数据集导入 Neo4j。
我遇到了 Python Excel 网站, 该网站将我指向 xlrd 库,因为我正在使用 2010 年之前的 Excel 文件。
主要文档非常广泛
,但我发现
github 示例
更容易理解。
我最终得到了以下脚本,它遍历了电子表格中除了前两张纸之外的所有纸——前两张纸包含指令而不是数据:
from xlrd import open_workbook
import csv
wb = open_workbook('Road-Accident-Safety-Data-Guide-1979-2004.xls')
for i in range(2, wb.nsheets):
sheet = wb.sheet_by_index(i)
print sheet.name
with open("data/%s.csv" %(sheet.name.replace(" ","")), "w") as file:
writer = csv.writer(file, delimiter = ",")
print sheet, sheet.name, sheet.ncols, sheet.nrows
header = [cell.value for cell in sheet.row(0)]
writer.writerow(header)
for row_idx in range(1, sheet.nrows):
row = [int(cell.value) if isinstance(cell.value, float) else cell.value
for cell in sheet.row(row_idx)]
writer.writerow(row)
我已经替换了工作表名称中的空格,以便磁盘上的文件名更容易使用。出于某种原因,数值都是浮点数,而我希望它们是整数,所以我必须明确地应用该转换。
以下是 CSV 文件的一些示例:
from xlrd import open_workbook
import csv
wb = open_workbook('Road-Accident-Safety-Data-Guide-1979-2004.xls')
for i in range(2, wb.nsheets):
sheet = wb.sheet_by_index(i)
print sheet.name
with open("data/%s.csv" %(sheet.name.replace(" ","")), "w") as file:
writer = csv.writer(file, delimiter = ",")
print sheet, sheet.name, sheet.ncols, sheet.nrows
header = [cell.value for cell in sheet.row(0)]
writer.writerow(header)
for row_idx in range(1, sheet.nrows):
row = [int(cell.value) if isinstance(cell.value, float) else cell.value
for cell in sheet.row(row_idx)]
writer.writerow(row)
就是这样。不太难!