首页 > 网站 > 建站经验 > 正文

3.1-采集容易出错的几个地方的设置说明

2024-08-30 19:06:10
字体:
来源:转载
供稿:网友

3.1的采集增加了模糊匹配查询的功能,

从发布以来大家使用后反映问题来看,

我特总结几点做非凡说明(以后发现更多情况再继续补充):

一、采集条数设置后导致下标越界的问题

出现这个问题是因为设置的采集条数过大,已经大于了目标页面的实际新闻条数,假如要采集的新闻是整个目标页面的新闻,请不要填写条数,直接点击确定就是了,默认是全部采集对象页的全部符合条件的新闻。

二、无法读取新闻列表的问题

新闻列表在3.1里面设置是非必须的,即可以不设置,默认是全页面(在<body和</body>之间)匹配符合条件的新闻地址。但是我们建议您设置一下采集“新闻列表”,那样可以加快采集速度,并且给你设置“列表URL”带来方便。设置的时候请注重开始标记的唯一性,结束标记也建议设置成唯一的,假如设置中有不方便的情况,可以使用“[变量]”代替一下不确定的字符,可以设置多个“[变量]”。

三、采集目标地址在页面中是相对路径的问题

其实这个不算是个问题,因为我们系统会判定是相对路径和绝对路径的,相对路径在采集的时候也会补充完整的!对采集没有影响!

四、采集分页的问题

采集新闻对象页分页这里不说了,请看教程和录像;采集新闻内容分页,请设置具有“下一页”标记的地方,取得“下一页”指向的地址,假如只有第一页,第二页,第三页等,无法确定下一页标记的页面,内容分页暂时是不能采集的,除非如当前页是第二页,“第二页”标记是没有加超连接的,那样可以寻找这样没有加超连接的下一个标记就是下一页。总之,必须要准确取出“下一页”的URL地址才能使用内容分页采集。

五、对续采的说明

续采新闻需要在前面采集有记录的情况下进行,并且要和采集顺序相同,假如采集是顺序采集,在续采的时候改成了倒序采集,续采是进行不下去的。假如采集对象也更新很快,前一次采集比较久了,采集记录比采集对象页老的情况下续采将无法确定前一次采集的结束点,建议使用正常的采集。续采没有采集条数的设置。

六、目标页采集回来出现乱码的问题

那是目标页编码方式和采集默认编码方式不一样导致的,我们默认是采集GB2312,在采集UTF-8等编码方式会出现乱码,需要修改collect/inc/function.asp里面第二个函数对编码方式的设置,采集完成后请修改回GB2312,因为现在的中文网页绝大部分是使用GB2312的。

七、远程存图和存FLASH的问题

假如在站点选项里面设置了保存远程图片,在采集时会将新闻页面的图片和FLASH采集到本地你设置的保存文件的目录里面,并将页面对应的图片和FLASH地址替换成你现有的本地路径,假如不保存远程图片,也会将图片和FLASH连接地址替换成绝对的,所以不用担心采集回来有相对路径的显示问题。

八、其他一些不能采集的情况

请注重红色显示的报错信息,比如标题失败,内容失败等,请检查相应部分的设置,在不熟悉的情况下多修改几次,你一定能采集成功的!

还有一些地方需要自己体会,有问题欢迎上论坛我们大家讨论!

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表