首页 > 编程 > Python > 正文

Python中装饰器的一个妙用

2020-02-23 06:25:00

字体：大中小

来源：转载

供稿：网友

好吧，我知道是大半夜……，但我还是觉得赶紧花上半个小时，把这最新的想法分享出来是值得的~直接进入正题~

我们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后，还有数据要抓取。简单点，我们就按照三层来看，那我们的代码就是如下：
代码如下:
def func_top(url):
    data_dict= {}

    #在页面上获取到子url
    sub_urls = xxxx

    data_list = []
    for it in sub_urls:
        data_list.append(func_sub(it))

    data_dict[/'data/'] = data_list

    return data_dict

def func_sub(url):
    data_dict= {}

    #在页面上获取到子url
    bottom_urls = xxxx

    data_list = []
    for it in bottom_urls:
        data_list.append(func_bottom(it))

    data_dict[/'data/'] = data_list

    return data_dict

def func_bottom(url):
    #获取数据
    data = xxxx
    return data

func_top是上层页面的处理函数，func_sub是子页面的处理函数，func_bottom是最深层页面的处理函数，func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。

如果正常情况下，这样确实已经满足需求了，但是偏偏这个你要抓取的网站可能极不稳定，经常链接不上，导致数据拿不到。

于是这个时候你有两个选择:

1.遇到错误就停止，之后重新从断掉的位置开始重新跑
2.遇到错误继续，但是要在之后重新跑一遍，这个时候已经有的数据不希望再去网站拉一次，而只去拉没有取到的数据

对第一种方案基本无法实现，因为如果别人网站的url调整顺序，那么你记录的位置就无效了。那么只有第二种方案，说白了，就是要把已经拿到的数据cache下来，等需要的时候，直接从cache里面取。

OK，目标已经有了，怎么实现呢？

如果是在C++中的，这是个很麻烦的事情，而且写出来的代码必定丑陋无比，然而庆幸的是，我们用的是python，而python对函数有装饰器。

所以实现方案也就有了:

定义一个装饰器，如果之前取到数据，就直接取cache的数据；如果之前没有取到，那么就从网站拉取，并且存入cache中.

代码如下:
代码如下:
def get_dump_data(dir_name, url):
m = hashlib.md5(url)
filename = m.hexdigest()

上一篇：Python中实现的RC4算法

下一篇：Python THREADING模块中的JOIN()方法深入理解

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

雷军：小米成立10年收入突破2000亿

2020-02-23 14:27:16

特斯拉：无钴，不代表一定是磷酸铁锂电池

2020-02-22 09:45:28

豌豆荚宣布业务调整将于2月28日关闭PC版在线服务

2020-02-22 09:42:20

小米集团宣布人事任命：联合创始人王川担任小米集团首席战略官

2020-02-22 09:39:07

外媒：高通康宁合作开发毫米波5G室内解决方案

2020-02-21 16:46:56

华为终端产品与战略线上发布会：5G全场景，共联未来

2020-02-20 10:01:00

疑难解答

图片精选

网友关注