首页 > CMS > 织梦DEDE > 正文

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

2024-07-12 09:11:37

字体：大中小

来源：转载

供稿：网友

今天打开火车头采集器需要更新下织梦网站，可是点了开始后发现错误了重新修改了列表采集规则。没仔细看等抓完300多个连接导入数据库时发生错了，仔细一看该目标站的文章列表页将文章url地址做了处理。

织梦火车头采集文章列表地址列表错误URL没有协议头是//解决方法

表现：

常规的文章列表文章URL应该是 <a href="https://www.CUOxin.com/URL.html">才对，而该站处理成了<a href="//www.CUOxin.com/URL.html">，就是把协议头https或者http给取消了，这个在一定程度上是可以防范很多采集程序，软件，爬虫的。采集后的地址列表会多一层网址，就成了https://www.CUOxin.com/www.CUOxin.com/URL.html，这样的话就无法正确采集内容了。

解决方法：

在网址获取选项里点选“手动填写链接地址规则”，

右侧脚本规则填写【a class="item" href="[参数]" title="(*)" target="_blank">】这里的参数就是原始目前的不带协议头的网址。

实际连接：填写【http:[参数1]】如果该网站是https的这里就填写【https:[参数1]】

结果：

以上操作后点获取网址测试正确，从采集，入库等都OK了。

PS：

这个网址问题以前看到过，用DEDECMS织梦采集就是网址错误，今天在火车头上总算是解决了。

上一篇：织梦网站百度地图api在https网站里不显示解决方法

下一篇：织梦导航高亮标签currentstyle调用自定义字段的方法

学习交流

如何查找有故障的配件

如何查找有故障的配件...

热门图片

猜你喜欢的新闻

猜你喜欢的关注

新闻热点

最牛同桌！我考了696分我同桌考了703分

2024-06-26 22:28:41

650分！高二女生考入北大：遗憾不能上高三

2024-06-26 22:26:16

男生估分600只考了397 妈妈：高考虽重要，但不代表所有

2024-06-26 22:23:01

唐尚珺回应是否会直播带货：有人出100万想和他合作！

2024-06-25 19:29:23

名校抢人名场面：清华、北大太拼了！

2024-06-25 19:22:14

男生高考语文满分！网友：第一次听说

2024-06-25 19:19:15

疑难解答

图片精选

网友关注