首页 > 编程 > Python > 正文

python实现提取百度搜索结果的方法

2020-01-04 19:14:24
字体:
来源:转载
供稿:网友

这篇文章主要介绍了python实现提取百度搜索结果的方法,涉及Python网页及字符串操作的相关技巧,需要的朋友可以参考下

本文实例讲述了python实现提取百度搜索结果的方法。分享给大家供大家参考。具体实现方法如下:

 

 
  1. # coding=utf8 
  2. import urllib2 
  3. import string 
  4. import urllib 
  5. import re 
  6. import random 
  7. #设置多个user_agents,防止百度限制IP 
  8. user_agents = ['Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20130406 Firefox/23.0', / 
  9. 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:18.0) Gecko/20100101 Firefox/18.0', / 
  10. 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/533+ / 
  11. (KHTML, like Gecko) Element Browser 5.0', / 
  12. 'IBM WebExplorer /v0.94''Galaxy/1.0 [en] (Mac OS X 10.5.6; U; en)', / 
  13. 'Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.1; WOW64; Trident/6.0)', / 
  14. 'Opera/9.80 (Windows NT 6.0) Presto/2.12.388 Version/12.14', / 
  15. 'Mozilla/5.0 (iPad; CPU OS 6_0 like Mac OS X) AppleWebKit/536.26 (KHTML, like Gecko) / 
  16. Version/6.0 Mobile/10A5355d Safari/8536.25', / 
  17. 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) / 
  18. Chrome/28.0.1468.0 Safari/537.36', / 
  19. 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.0; Trident/5.0; TheWorld)'
  20. def baidu_search(keyword,pn): 
  21. p= {'wd': keyword}  
  22. res=urllib2.urlopen(("http://www.baidu.com/s?"+urllib.urlencode(p)+"&pn={0}&cl=3&rn=100").format(pn)) 
  23. html=res.read() 
  24. return html 
  25. def getList(regex,text): 
  26. arr = [] 
  27. res = re.findall(regex, text) 
  28. if res: 
  29. for r in res: 
  30. arr.append(r) 
  31. return arr 
  32. def getMatch(regex,text): 
  33. res = re.findall(regex, text) 
  34. if res: 
  35. return res[0
  36. return "" 
  37. def clearTag(text): 
  38. p = re.compile(u'<[^>]+>'
  39. retval = p.sub("",text) 
  40. return retval 
  41. def geturl(keyword): 
  42. for page in range(10): 
  43. pn=page*100+1 
  44. html = baidu_search(keyword,pn) 
  45. content = unicode(html, 'utf-8','ignore'
  46. arrList = getList(u"<table.*?class=/"result/".*?>.*?<//a>", content) 
  47. for item in arrList: 
  48. regex = u"<h3.*?class=/"t/".*?><a.*?href=/"(.*?)/".*?>(.*?)<//a>" 
  49. link = getMatch(regex,item) 
  50. url = link[0
  51. #获取标题 
  52. #title = clearTag(link[1]).encode('utf8') 
  53. try
  54. domain=urllib2.Request(url) 
  55. r=random.randint(0,11
  56. domain.add_header('User-agent', user_agents[r]) 
  57. domain.add_header('connection','keep-alive'
  58. response=urllib2.urlopen(domain) 
  59. uri=response.geturl() 
  60. print uri 
  61. except
  62. continue 
  63. if __name__=='__main__'
  64. geturl('python'

希望本文所述对大家的Python程序设计有所帮助。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表