看到好多网友都遇到过我之前遇到的问题 所以写个采集教程大家共享下 以解决大家遇到的一些采集问题
理论我就不多说了 可以看动易的手册教程 下面就用一个案例来说明分页采集的方法
采集网站案例地址:http://windows.chinaitlab.com/List_96.html
添加采集项目
建立项目:
列表设置
列表开始代码:
列表结束代码:
链接开始代码:·
页面列表:
列表设置时注意 列表开始代码和列表结束代码 要取列表开始和结束的一些唯一的代码 可用测试列表来测试列表是否正确 如果不正确重新查找正确的代码 可用查找命令查找代码是否唯一
链接开始代码和链接结束代码 取列表中链接地址前和后的一些链接代码 可点测试链接进行链接测试 如果不正确 去掉"号前后的代码试试
列表分页设置 (可以根据自己的需要选择是否有列表分页)
批量指定分页URL代码:
http://windows.chinaitlab.com/List_96_{$ID}.html
ID范围: 10 - 1
手动添加分页URL代码:
http://windows.chinaitlab.com/List_96_10.html
http://windows.chinaitlab.com/List_96_9.html
http://windows.chinaitlab.com/List_96_8.html
http://windows.chinaitlab.com/List_96_7.html
http://windows.chinaitlab.com/List_96_6.html
http://windows.chinaitlab.com/List_96_5.html
http://windows.chinaitlab.com/List_96_4.html
http://windows.chinaitlab.com/List_96_3.html
http://windows.chinaitlab.com/List_96_2.html
http://windows.chinaitlab.com/List_96_1.html
基本上现在的网站的列表分页还是比较规则的 大多可以用 批量指定分页URL代码 和手动添加分页URL代码 来解决
内容页采集设置
标题设置 (由于重点讲分页设置 所以在此 完整标题 副标题 关键字 和简介 设置成和标题一样的采集规则了 大家可以根据自己的需要自己设置 )
选中 使用采集规则
字段设置开始:
文章内容
采集内容效果图:
字段设置开始:
字段设置结束:
文章内容采集规则设置中字段设置开始:和字段设置结束:也是找文章正文的开始和结束代码
测试采集下一页效果:
分页设置
从源代码中获取分页URL
分页代码开始:[1]
分页代码结束:.html'>下一页
分页URL开始代码:
分页代码开始一般找文章分页列表地址的开始和结束部分唯一代码 多尝试几次就明白
[1][2] [3] [4] [5] [6] [7] [8] [9] [10] 下一页
是否保存远程图片 是否保存图片可以根据自己的需要 保存的话就保存到自己的网站服务器了 还有一点是相对链接的图片最好保存 要不也是显示不了图片的
字段采集页面效果:
正在采集中效果图:
采集后内容页显示效果:
然后保存测试就可以了 测试完可以采集一些看下效果 如果文章显示不正确说明采集规则设置有问题 可以重新设置或修改下就可以 由于每个网站的采集规则都不太一样 所以可以根据每个网站的规则自行设置 多测试多制作规则就了解其中的规律了,也由于一个网站的局限性只能说说采集的一些常用和实用的一些功能 其他的一些功能可以参考手册也可以自己研究哈 我也是用户所以难免有错误或疏忽的地方也请大家指正和包涵哦。
更多问题讨论请到:http://bbs.powereasy.net/dispbbs.asp?boardID=73&ID=389373&page=1
新闻热点
疑难解答
图片精选