用python + openpyxl处理excel2007文档思路以及心得

2020-02-23 05:32:52

字体：大中小

来源：转载

供稿：网友

寻觅工具

确定任务之后第一步就是找个趁手的库来干活。 Python Excel上列出了xlrd、xlwt、xlutils这几个包，但是

它们都比较老，xlwt甚至不支持07版以后的excel
它们的文档不太友好，都可能需要去读源代码，而老姐的任务比较紧，加上我当时在期末，没有这个时间细读源代码
再一番搜索后我找到了openpyxl，支持07+的excel，一直有人在维护，文档清晰易读，参照Tutorial和API文档很快就能上手，就是它了~

安装

这个很容易，直接pip install openpyxl，呵呵呵~

因为我不需要处理图片，就没有装pillow。

一些考虑

源文件大约一个在1~2MB左右，比较小，所以可以直接读入内存处理。
既然是处理excel，何况他们整个组显然都是win下干活（数据都用excel存了= =，商科的人啊……），这个脚本还是在win下做吧
这个任务完全不需要我对现有的文件做修改！囧……我只要读入、处理、再写出另一个文件就行了

学习使用

嗯，就是打开cmd，然后用python的shell各种玩这个模块来上手……（win下没有装ipython，囧）

做这个小脚本基本上我只需要import两个东西

from openpyxl import Workbookfrom openpyxl import load_workbook

load_workbook顾名思义是把文件导入到内存，Workbook是最基本的一个类，用来在内存里创建文件最后写进磁盘的。

干活

首先我需要导入这个文件

inwb = load_workbook(filename)

得到的就是一个workbook对象

然后我需要创建一个新的文件

outwb = Workbook()

接着在这个新文件里，用create_sheet新建几个工作表，比如

careerSheet = outwb.create_sheet(0, 'career')

就会从头部插入一个叫career的工作表（也就是说用法类似python list的insert）

接下来我需要遍历输入文件的每个工作表，并且按照表名做一些工作（e.g.如果表名不是数字，我不需要处理），openpyxl支持用字典一样的方式通过表名获取工作表，获取一个工作簿的表名的方法是get_sheet_names

for sheetName in inwb.get_sheet_names():  if not sheetName.isdigit():    continue  sheet = inwb[sheetName]

得到工作表之后，就是按列和行处理了。openpyxl会根据工作表里实际有数据的区域来确定行数和列数，获取行和列的方法是sheet.rows和sheet.columns，它们都可以像list一样用。比如，如果我想跳过数据少于2列的表，可以写

if len(sheet.columns) < 2:  continue

如果我想获取这个工作表的前两列，可以写

colA, colB = sheet.columns[:2]

除了用columns和rows来得到这个工作表的行列之外，还可以用excel的单元格编码来获取一个区域，比如

上一篇：Python程序员开发中常犯的10个错误

下一篇：Django中实现一个高性能计数器(Counter)实例

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注