首页 > 编程 > Python > 正文

Python中利用xpath解析HTML的方法

2020-02-23 00:07:23
字体:
来源:转载
供稿:网友

在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息。

首先,我们需要安装一个支持xpath的python库。目前在libxml2的网站上被推荐的python binding是lxml,也有beautifulsoup,不嫌麻烦的话还可以自己用正则表达式去构建,本文以lxml为例讲解。

假设有如下的HTML文档:

<html> <body>  <form>   <div id='leftmenu'>    <h3>text</h3>    <ul id='china'><!-- first location -->     <li>...</li>     <li>...</li>       ......    </ul>    <ul id='england'><!-- second location-->     <li>...</li>     <li>...</li>       ......    </ul>   </div>  </form> </body></html>

直接使用lxml处理:

 import codecs from lxml import etree f=codecs.open("ceshi.html","r","utf-8") content=f.read() f.close() tree=etree.HTML(content)

etree提供了HTML这个解析函数,现在我们可以直接对HTML使用xpath了,是不是有点小激动,现在就尝试下吧。

在使用xpath之前我们先来看看作为对照的jQuery和RE。

在jQuery里要处理这种东西就很简单,特别是假如那个ul节点有id的话(比如是<ul id='china'>):

$("#china").each(function(){...});

具体到此处是:

代码如下:$("#leftmenu").children("h3:contains('text')").next("ul").each(function(){...});

找到id为leftmenu的节点,在其下找到一个内容包含为”text”的h3节点,再取其接下来的一个ul节点。

在python里要是用RE来处理就略麻烦一些:

block_pattern=re.compile(u"<h3>档案</h3>(.*?)<h3>", re.I | re.S)m=block_pattern.findall(content)item_pattern=re.compile(u"<li>(.*?)</li>", re.I | re.S)items=item_pattern.findall(m[0])for i in items:  print i

那么用xpath要怎么做呢?其实跟jQuery是差不多的:

nodes=tree.xpath("/descendant::ul[@id='china']")

当然,现在没有id的话也就只能用类似于jQuery的方法了。完整的xpath应该是这样写的(注意,原文件中的TAG有大小写的情况,但是在XPATH里只能用小写):

代码如下:nodes=tree.xpath(u"/html/body/form/div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

更简单的方法就是像jQuery那样直接根据id定位:

nodes=tree.xpath(u"//div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

这两种方法返回的结果中,nodes[0]就是那个“text”的h3节点后面紧跟的第一个ul节点,这样就可以列出后面所有的ul节点内容了。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表