首页 > 编程 > Python > 正文

2017.3.5阿凡python简单爬虫尝试,奉献源码

2019-11-06 07:11:17
字体:
来源:转载
供稿:网友

慕课网Python开发简单爬虫源码有注释

今天2017年3月5日,杭城天气不是很好,但对我来说今天依然是一个好日子。今天发生了一些故事,最主要的我倒腾了几天的python爬虫总算是完成了。将源码奉献出来,拍砖请轻点。

参考教程 慕课网的python开发简单爬虫 http://www.imooc.com/learn/563 注:本人代码基本参考(应该是完全)该教程的内容,开发工具用的是pycharm,教程的用的eclips做python开发还得搞七搞八实在是太麻烦了。其实我是搞失败了,请无视这句。

个人背景说明: 本人是业余玩家,学校学的是搬砖。看了一部分传智播客java基础的视频,按他们的流程算应该是十五天吧。看了一些python基础的电子书和一些教程。

开发过程中碰到的一些问题:

主要是一开始的那些配置,比如导入bs4模块,那个setup调用我是没成功过,只有在运行那个程序后有加载进去,但是退出后重新建个python就找不到bs模块了。最后我用的是pip的方法。 期间跟着视频敲代码肯定不会有问题的。最后测试运行GG了, 因为对这个开发工具不了解,不知道怎么调试,只会使用运行功能,所以用了个很low的方法,按照程序的运行流程插入PRint“hello1”之类的方式来判断程序运行到哪里挂了,报错是什么鬼也看不懂,所以看我的源码乱的一笔。还有print soup 等直接打印各种乱七八糟的东西来判断是否正确运行,反正能解决问题就好。就通过这样的方式我知道这个程序问题出现在网页解析器上,于是我建了个text_parser做解析方面的测试。我复制网页解析器的代码这个模块进行改造,让它直接顺序执行,参数直接定义,不考虑函数调用,不考虑循环。后来发现这个解析的关键字跟视频教程的是不一样的,可能是百度更新了吧。主要是我看的时候有看到很视频教程一样关键字,就没仔细去找直接参考视频教程里的了。然后链接解析这块搞定了。第二部分就是标题和内容主要是我一些名字写错了,我把【class_】写成【Class】因为编程器自动提示有Class还是有色的我以为就是他了。最后这个网页解析器弄完,我又直接对主程序进行运行,这次完美运行。

虽然速度比较慢,生出来的网页排版很诡异,抓到内容更诡异。但毕竟是第一次,赶紧发个帖子留恋一下

下一步目标: 1.生成Excel表格,生成网页有屁用,还这么难看 2.用多线程,再高级就是用分布式了,毕竟电脑这么多等我去搞

配图:

诡异的抓取内容

软件运行,居然全抓到,没有一条失败


杭州python学习交流群 616744861


发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表