首页 > 学院 > 开发设计 > 正文

Python之HTML的解析(网页抓取一)

2019-11-14 17:06:55
字体:
来源:转载
供稿:网友

http://blog.csdn.net/my2010sam/article/details/14526223

---------------------

对html的解析是网页抓取的基础,分析抓取的结果找到自己想要的内容或标签以达到抓取的目的。   

    HTMLParser是python用来解析html的模块。它可以分析出html里面的标签、数据等等,是一种处理html的简便途径。 HTMLParser采用的是一种事件驱动的模式,当HTMLParser找到一个特定的标记时,它会去调用一个用户定义的函数,以此来通知程序处理它主要的用户回调函数的命名都是以handler_开头的,都是HTMLParser的成员函数。当我们使用时,就从HTMLParser派生出新的类,然后重新定义这几个以handler_开头的函数即可。这几个函数包括:

  • handle_startendtag  处理开始标签和结束标签
  • handle_starttag     处理开始标签,比如<xx>   tag不区分大小写
  • handle_endtag       处理结束标签,比如</xx>
  • handle_charref      处理特殊字符串,就是以&#开头的,一般是内码表示的字符
  • handle_entityref    处理一些特殊字符,以&开头的,比如 &nbsp;
  • handle_data         处理数据,就是<xx>data</xx>中间的那些数据
  • handle_comment      处理注释
  • handle_decl         处理<!开头的,比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN”
  • handle_pi           处理形如<?instruction>的东西

def handle_starttag(self,tag,attr):
        #注意:tag不区分大小写,此时也可以解析 <A 标签

        # SGMLParser 会在创建attrs 时将属性名转化为小写。

        if tag=='a':
            for href,link in attr:
                if href.lower()=="href":

                        pass

 

1. 基本解析,找到开始和结束标签

 

[python] view plaincopy在CODE上查看代码片
 
<span style="font-size:18px;">#coding:utf-8  
  •   
  • from HTMLParser import HTMLParser  
  • ''''' 
  • HTMLParser的成员函数: 
  •  
  •     handle_startendtag  处理开始标签和结束标签 
  •     handle_starttag     处理开始标签,比如<xx> 
  •     handle_endtag       处理结束标签,比如</xx> 
  •     handle_charref      处理特殊字符串,就是以&#开头的,一般是内码表示的字符 
  •     handle_entityref    处理一些特殊字符,以&开头的,比如   
  •     handle_data         处理数据,就是<xx>data</xx>中间的那些数据 
  •     handle_comment      处理注释 
  •     handle_decl         处理<!开头的,比如<!DOCTYPE html PUBLIC “-//W3C//DTD HTML 4.01 Transitional//EN” 
  •     handle_pi           处理形如<?instruction>的东西 
  •  
  • '''  
  • class myHtmlParser(HTMLParser):  
  •     #处理<!开头的内容  
  •     def handle_decl(self,decl):  
  •         PRint 'Encounter some declaration:'+ decl  
  •     def handle_starttag(self,tag,attrs):  
  •         print 'Encounter the beginning of a %s tag' % tag  
  •     def handle_endtag(self,tag):  
  •         print 'Encounter the end of a %s tag' % tag  
  •     #处理注释  
  •     def handle_comment(self,comment):   
  •         print 'Encounter some comments:' + comment  
  •   
  •   
  • if __name__=='__main__':  
  •     a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">/  
  •     <html><head><!--insert javaScript here!--><title>test</title><body><a href="http: //www.163.com">链接到163</a></body></html>'  
  •     m=myHtmlParser()  
  •     m.feed(a)  
  •     m.close()  
  •   
  • 输出结果:  
  •   
  • Encounter some declaration:DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"  
  • Encounter the beginning of a html tag  
  • Encounter the beginning of a head tag  
  • Encounter some comments:insert Javascript here!  
  • Encounter the beginning of a title tag  
  • Encounter the end of a title tag  
  • Encounter the beginning of a body tag  
  • Encounter the beginning of a a tag  
  • Encounter the end of a a tag  
  • Encounter the end of a body tag  
  • Encounter the end of a html tag</span>  
  •  

     

    2.%20解析html的超链接和链接显示的内容  

     

    [python] view%20plaincopy
     
    <span style="font-size:18px;">#coding:utf-8  
  • from HTMLParser import HTMLParser  
  • class myHtmlParser(HTMLParser):  
  •   
  •     def __init__(self):  
  •         HTMLParser.__init__(self)  
  •         self.flag=None  
  •   
  •     # 这里重新定义了处理开始标签的函数  
  •     def handle_starttag(self,tag,attrs):  
  •          # 判断标签<a>的属性  
  •         if tag=='a':  
  •             self.flag='a'  
  •             for href,link in attrs:  
  •                 if href=='href':  
  •                     print "href:",link  
  •   
  •     def handle_data(self,data):  
  •         if self.flag=='a':  
  •             print "data:",data.decode('utf-8')  
  •   
  • if __name__ == '__main__':  
  •     a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">/  
  •     <html><head><!--insert javaScript here!--><title>test</title><body><a href="http: //www.163.com">链接到163</a></body></html>'  
  •     m=myHtmlParser()  
  •     m.feed(a)  
  •     m.close()  
  •   
  • 输出结果:  
  •   
  • href: http: //www.163.com  
  • data: 链接到163</span>  
  •  

     

    或:

     

    [python] view%20plaincopy派生到我的代码片
     
      1. <span style="font-size:18px;">#coding:utf-8  
      2.   
      3. from  HTMLParser import HTMLParser  
      4. import urllib2  
      5.   
      6. class myparser(HTMLParser):  
      7.   
      8.     # 继承父类初始化方法,并添加一个tag属性  
      9.     def __init__(self):  
      10.         HTMLParser.__init__(self)  
      11.         self.tag = None  
      12.   
      13.     def handle_decl(self,decl):  
      14.         print u"声明:",decl  
      15.   
      16.     def handle_starttag(self,tag,attrs):  
      17.         print u"开始标签;",tag  
      18.   
      19.         # 判断是否是a开头的标签  
      20.         if tag=='a' and len(attrs):  
      21.             #设置 self.tag 标记  
      22.             self.tag='a'  
      23.             for href,link in attrs:  
      24.                 if href=='href':  
      25.                     print href+":"+link  
      26.   
      27.     def handle_endtag(self,tag):  
      28.         print u"结束标签:",tag  
      29.   
      30.     def handle_data(self,data):  
      31.         #处理 a 标签开头的数据  
      32.         if self.tag=='a':  
      33.             print u"数据内容:",data.decode("utf-8")  
      34.   
      35.     def handle_comment(self,comm):  
      36.         print u"注释:",comm  
      37.   
      38.   
      39. if __name__ == '__main__':  
      40.   
      41.     a = '<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">/  
      42.     <html><head><!--insert javaScript here!--><title>test</title><body><a href="http: //www.163.com">链接到163</a><a href="http: //www.baidu.com">百度</a></body></html>'  
      43.     m = myparser()  
      44.     m.feed(a)  
      45.   
      46.   
      47.   
      48.   
      49.   
      50. 结果:  
      51.   
      52. 声明: DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"  
      53. 开始标签; html  
      54. 开始标签; head  
      55. 注释: insert javaScript here!  
      56. 开始标签; title  
      57. 结束标签: title  
      58. 开始标签; body  
      59. 开始标签; a  
      60. href:http: //www.163.com  
      61. 数据内容: 链接到163  
      62. 结束标签: a  
      63. 开始标签; a  
      64. href:http: //www.baidu.com  
      65. 数据内容: 百度  
      66. 结束标签: a  
      67. 结束标签: body  
      68. 结束标签: html</span>  

    上一篇:你可能没听过的11个Python库

    下一篇:创业公司都在使用的3款Python库

    发表评论 共有条评论
    用户名: 密码:
    验证码: 匿名发表
    学习交流
    热门图片
    猜你喜欢的新闻
    猜你喜欢的关注

    新闻热点

    疑难解答

    图片精选

    网友关注