首页 > 网站 > 建站经验 > 正文

batchcollect pagecollect来自官方杰奇jieqi定时采集配置方法参

2019-11-02 17:03:54
字体:
来源:转载
供稿:网友
前言

要实现采集,默认方式是根据配置好的采集规则,在浏览器提交相应的参数即可完成后面的采集入库全部动作。

而实现定时采集,与人工在浏览器提交有些区别,主要分两大步骤:

一、编写采集的url和相关参数,访问这个url即可实现想要的采集模式。(这个url直接在浏览器提交同样可以实现采集)

二、把定时访问这个url的功能加到系统的定时任务里面,实现无人值守的定时采集。

具体实现方法请参考下面内容:

1、对采集配置文件的解释

任何一个采集都会用到两个采集配置文件(跟后台采集规则配置对应),都可以用文本编辑器打开查看。

其中 /configs/article/collectsite.php 是对总的采集站点配置,记录了一共允许采集哪几个站点。

里面包含类似这样的内容:

$jieqiCollectsite['1']['name'] = '采集站点一'; 

$jieqiCollectsite['1']['config'] = 'abc_com'; 

$jieqiCollectsite['1']['url'] = 'http://www.abc.com'; 

$jieqiCollectsite['1']['subarticleid'] = 'floor($articleid/1000)';

$jieqiCollectsite['1']['enable'] = '1';

$jieqiCollectsite['2']['name'] = '采集站点二';

$jieqiCollectsite['2']['config'] = 'def_net';

$jieqiCollectsite['2']['url'] = 'http://www.def.net';

$jieqiCollectsite['2']['subarticleid'] = '';

$jieqiCollectsite['2']['enable'] = '1';

参数含义解释如下:

['1'] - 这里的 1 表示采集网站的数字序号,不同的采集站序号不能重复。

['name'] - 采集网站名称。

['config'] - 网站英文标识,这个网站采集规则配置文件有关,比如这个值是 abc_com ,那么采集规则配置文件就是 /configs/article/site_abc_com.php。

['url'] - 采集网站网址。

['subarticleid'] - 采集网站,文章子序号运算方式,本项目主要为了兼容以前程序,新版本里面文章子序号可以通过采集获得。

['enable'] - 是否允许采集,1 表示允许,0 表示禁止,默认为 1。

如前面所说,每个采集网站有个专门的采集规则配置文件,/configs/article/ 目录下以 site_ 开头的php文件,如 /configs/article/site_abc_com.php。

里面内容都与后台采集规则设置相对应,具体细节不一一解释。需要了解的是本文件里面内容分两大部分,前面内容都是对网站内容采集规则的配置,而最后面 $jieqiCollect['listcollect']['0'],$jieqiCollect['listcollect']['1'] 这样的设置是对网站"批量采集规则"的配置,比如按最近更新采集、按排行榜采集,可以设置多个。['0'] 这里的数字 0 表示批量采集类别的数字序号,同一个网站也不能重复。

2、编写采集内容的url及参数

这里的采集是针对多篇文章批量采集,分两种模式:

一、按页面批量采集,比如采集最新更新列表或者排行榜列表,每个链接采集一页。

链接格式如下:

http://www.jb51.net/modules/article/admin/pagecollect.php?action=collect&siteid=1&collectname=0&startpageid=1&maxpagenum=1¬addnew=0&jieqi_username=admin&jieqi_userpassword=1234

参数含义解释如下:

www.jb51.net - 是指您的网址。

action - 字符串,程序执行的动作命令,固定值为 collect。

siteid - 数字类型,要采集的网站序号,具体哪个网站对应什么序号见配置文件collectsite.php。
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表