一、前言
在python爬虫抓取拉勾网职业信息这篇博客中,已经抓取了拉勾网数据分析职位的信息并储存在本地,下面介绍一下如果将txt文档转化为csv文档。
二、实战
这里要注意的是,为了在sas中数据步编写方便,爬虫储存在本地的数据格式有所改动,后边会详细说明。
1、数据读取
libname lagou 'F:/lagou';filename intxt 'F:/lagou/深圳.txt';filename outcsv 'F:/lagou/深圳.csv';data lagou.sz; infile intxt firstobs=2; length companyName $60. companyType $20. companyStage $20. companyLabel $60. companySize $10. companyDistrict $10. positionType $15. positionEducation $10. positionAdvantage $60. positionSalary $10. positionWorkYear $10.; input companyName companyType companyStage companyLabel companySize companyDistrict positionType positionEducation positionAdvantage positionSalary positionWorkYear;run;在上面可以看到,读取文件的时候,分隔符使用的是默认的空格,这与之前爬虫抓取时存储的数据格式有所不同,需要自行修改。因为数据第一行是标签名,所以从第二个观测开始读取,length语句保证数据长度足够,结果如下:
2、转化为csv文档
option nocenter;ods listing close;ods results off;ods csvall file=outcsv; PRoc print data=lagou.sz; title '2017年拉勾网深圳数据分析职位信息'; run;ods csvall close;ods results on;ods listing;option nocenter将将输出的文件内容局左,ods listing close关闭到output窗口的默认输出,ods result off关闭默认到result的输出,结果如下:3、到这里将txt文档转为csv文档就结束了
新闻热点
疑难解答