Python中利用xpath解析HTML的方法

2020-02-23 00:07:23

字体：大中小

来源：转载

供稿：网友

在进行网页抓取的时候，分析定位html节点是获取抓取信息的关键，目前我用的是lxml模块(用来分析XML文档结构的，当然也能分析html结构)，利用其lxml.html的xpath对html进行分析，获取抓取信息。

首先，我们需要安装一个支持xpath的python库。目前在libxml2的网站上被推荐的python binding是lxml，也有beautifulsoup，不嫌麻烦的话还可以自己用正则表达式去构建，本文以lxml为例讲解。

假设有如下的HTML文档:

<html> <body>  <form>   <div id='leftmenu'>    <h3>text</h3>    <ul id='china'><!-- first location -->     <li>...</li>     <li>...</li>       ......    </ul>    <ul id='england'><!-- second location-->     <li>...</li>     <li>...</li>       ......    </ul>   </div>  </form> </body></html>

直接使用lxml处理：

 import codecs from lxml import etree f=codecs.open("ceshi.html","r","utf-8") content=f.read() f.close() tree=etree.HTML(content)

etree提供了HTML这个解析函数，现在我们可以直接对HTML使用xpath了，是不是有点小激动，现在就尝试下吧。

在使用xpath之前我们先来看看作为对照的jQuery和RE。

在jQuery里要处理这种东西就很简单，特别是假如那个ul节点有id的话（比如是<ul id='china'>）：

$("#china").each(function(){...});

具体到此处是：

代码如下:$("#leftmenu").children("h3:contains('text')").next("ul").each(function(){...});

找到id为leftmenu的节点，在其下找到一个内容包含为”text”的h3节点，再取其接下来的一个ul节点。

在python里要是用RE来处理就略麻烦一些：

block_pattern=re.compile(u"<h3>档案</h3>(.*?)<h3>", re.I | re.S)m=block_pattern.findall(content)item_pattern=re.compile(u"<li>(.*?)</li>", re.I | re.S)items=item_pattern.findall(m[0])for i in items:  print i

那么用xpath要怎么做呢？其实跟jQuery是差不多的：

nodes=tree.xpath("/descendant::ul[@id='china']")

当然，现在没有id的话也就只能用类似于jQuery的方法了。完整的xpath应该是这样写的（注意，原文件中的TAG有大小写的情况，但是在XPATH里只能用小写）：

代码如下:nodes=tree.xpath(u"/html/body/form/div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

更简单的方法就是像jQuery那样直接根据id定位：

nodes=tree.xpath(u"//div[@id='leftmenu']/h3[text()='text']/following-sibling::ul[1]")

这两种方法返回的结果中，nodes[0]就是那个“text”的h3节点后面紧跟的第一个ul节点,这样就可以列出后面所有的ul节点内容了。

上一篇：Python常见字典内建函数用法示例

下一篇：python numpy格式化打印的实例

学习交流

笔记本开机提示error loading os错误的问

笔记本开机提示error loading os错误的问题怎么解决...

热门图片

猜你喜欢的新闻

猜你喜欢的关注