PHP实现采集抓取淘宝网单个商品信息

2024-05-04 22:39:51

字体：大中小

来源：转载

供稿：网友

调用淘宝的数据可以使用淘宝提供的api，如果只需调用淘宝商品图片名称等公开信息在自己网站上，使用php中的 file_get_contents 函数实现即可。

思路：

file_get_contents(url) 该函数根据 url 如 http://www.baidu.com 将该网页内容（源码）以字符串形式输出（一个整字符串），然后配合preg_match，preg_replace等这些正则表达式操作就可以实现获取该url特定div，img等信息了。当然前题是淘宝在单个商品页面的结构是固定的，如500图的img中id就是J_ImgBooth！

具体实现方法：（获取500图，名称，价格，属性及商品描述）
代码如下:
$text=file_get_contents("http://item.taobao.com/item.htm?id=2380347279"); //将url地址上页面内容保存进$text

A.获取500图：
代码如下:
preg_match('/<img[^>]*id="J_ImgBooth"[^r]*rc=/"([^"]*)/"[^>]*>/', $text, $img);
//运用正则抓取img标签中id为J_ImgBooth的img，$img[0]为该500图img标签，$img[1]为500图的图片地址；

B. 获取名称：

代码如下:
preg_match('/<title>([^<>]*)<//title>/', $text, $title);
//因为正文中的商品名称标签没有特殊class或id正则不好抓取，就抓<title>标签中的内容了，一般来说title中内容就是商品名称了（实际有些出入），$title[0]整个title标签 $title[1]标签中内容；
$title=iconv('GBK','UTF-8',$title);
//如果你的网站是utf8编码，那么需要进行一下转码（淘宝是gbk编码）

C.获取价格：

代码如下:
preg_match('/<([a-z]+)[^i]*id=/"J_StrPrice/"[^>]*>([^<]*)<////1>/is', $text, $price);
//同理获取id为J_StrPrice的标签内容$price[2], $price[0]是整个标签， $price[1]为strong标签名；
$price=floatval($price);//放入数据库估计还有转一下变量类型

D.获取属性：

这之前获取的内容都是在单标签中相对只需一个正则就可搞定，然而如果要获取如

代码如下:
…

<div id=”xxx”>

…

<ul>

…

</ul>

<div>…

<div>…

</div>

</div>

</div>

…

这样特定div中有未知n个<>标签，获取该特定div将会非常的困难，搜了下网上，最接近的也只是”/<([a-z]+)[^>]*>([^<>]|(?R))*<////1>/”这样使用递归抓取标签对，但是他不能抓特定标签，所以想要轻松抓取class=”attributes”的div我是没法办到了。但是淘宝网页有其特殊性，就是它的各个标签结构基本是固定的…<div>…</div>标签后面不是</div><div id=”description”>就是</div><div>，所以我们可以采用变通法达到获取属性标签内容的目的。

上一篇：php模拟登陆的实现方法分析

下一篇：php+mysql删除指定编号员工信息的方法

学习交流

硬盘分区如何设置准确的分区空间

硬盘分区如何设置准确的分区空间...

热门图片

猜你喜欢的新闻

猜你喜欢的关注