寻觅工具
确定任务之后第一步就是找个趁手的库来干活。 Python Excel上列出了xlrd、xlwt、xlutils这几个包,但是
它们都比较老,xlwt甚至不支持07版以后的excel
它们的文档不太友好,都可能需要去读源代码,而老姐的任务比较紧,加上我当时在期末,没有这个时间细读源代码
再一番搜索后我找到了openpyxl,支持07+的excel,一直有人在维护,文档清晰易读,参照Tutorial和API文档很快就能上手,就是它了~
安装
这个很容易,直接pip install openpyxl,呵呵呵~
因为我不需要处理图片,就没有装pillow。
一些考虑
源文件大约一个在1~2MB左右,比较小,所以可以直接读入内存处理。
既然是处理excel,何况他们整个组显然都是win下干活(数据都用excel存了= =,商科的人啊……),这个脚本还是在win下做吧
这个任务完全不需要我对现有的文件做修改!囧……我只要读入、处理、再写出另一个文件就行了
学习使用
嗯,就是打开cmd,然后用python的shell各种玩这个模块来上手……(win下没有装ipython,囧)
做这个小脚本基本上我只需要import两个东西
from openpyxl import Workbookfrom openpyxl import load_workbook
load_workbook顾名思义是把文件导入到内存,Workbook是最基本的一个类,用来在内存里创建文件最后写进磁盘的。
干活
首先我需要导入这个文件
inwb = load_workbook(filename)
得到的就是一个workbook对象
然后我需要创建一个新的文件
outwb = Workbook()
接着在这个新文件里,用create_sheet新建几个工作表,比如
careerSheet = outwb.create_sheet(0, 'career')
就会从头部插入一个叫career的工作表(也就是说用法类似python list的insert)
接下来我需要遍历输入文件的每个工作表,并且按照表名做一些工作(e.g.如果表名不是数字,我不需要处理),openpyxl支持用字典一样的方式通过表名获取工作表,获取一个工作簿的表名的方法是get_sheet_names
for sheetName in inwb.get_sheet_names(): if not sheetName.isdigit(): continue sheet = inwb[sheetName]
得到工作表之后,就是按列和行处理了。openpyxl会根据工作表里实际有数据的区域来确定行数和列数,获取行和列的方法是sheet.rows和sheet.columns,它们都可以像list一样用。比如,如果我想跳过数据少于2列的表,可以写
if len(sheet.columns) < 2: continue
如果我想获取这个工作表的前两列,可以写
colA, colB = sheet.columns[:2]
除了用columns和rows来得到这个工作表的行列之外,还可以用excel的单元格编码来获取一个区域,比如
新闻热点
疑难解答