首页 > 网站 > 帮助中心 > 正文

采集操作使用详细说明

2020-10-28 20:20:35
字体:
来源:转载
供稿:网友
一、项目编辑--基本设置

  项目名称:    电脑入门                         (注:随便写)
  网站名称:    it.com.cn                        (注:随便写)
  网站地址:    http://www.it.com.cn             (注:随便写)
  新闻列表网址:http://www.it.com.cn/edu/readme/ (注:采集网站哪个网站的网址。)
  项目备注:    记得经常采集这个栏目。           (注:随便写)


二、项目编辑--采集目标源码

  列表开始代码:(注:要找到唯一的)
  列表结束代码:频道精选 
  列表索引分页:(注:这里有三种,<设置标签>、<批量生成>、<手动添加>)

  1、设置标签:
  下页开始标记:下页结束标记:>下一页     (注:要找到唯一的)
  索引分页重定向:   (注:不知何意,请老大指教!)

   2、批量生成 (注:这里设置生成范围为 1 TO 5 是不行的,没index_1.html这个目标,有些网站是可以。)
  原字符串:http://www.it.com.cn/edu/readme/index_{$ID}.html
  生成范围:2  To  5

  3、手动添加(注:这里不能添加:http://www.it.com.cn/edu/readme/index_1.html,理由同上)
  http://www.it.com.cn/edu/readme/index_2.html
  http://www.it.com.cn/edu/readme/index_3.html
  http://www.it.com.cn/edu/readme/index_4.html
  http://www.it.com.cn/edu/readme/index_5.html

三、项目编辑-- 采集列表

  链接开始代码: 链接结束代码:  target=_blank      (注:要找到唯一的)
  链接特殊处理:  不作处理   重新定位              (注:不知何意,请老大指教!)
  绝对链接字符:                                   (注:不知何意,请老大指教!)

  这是分析后所得到的新闻绝对链接地址:http://www.it.com.cn/f/edu/051/15/68987.htm  请查看是否正确。(注:点击后的地址是:http://127.0.0.1/Admin/target=_blank   BUG???)

四、项目编辑--采集目标内容页源码

  标题开始标记: 或:
  正文开始标记: (注:要找到唯一的)
  正文结束标记: (注:要找到唯一的)

  作者设置:   (注:这里就不说了,设置标签和采集正文的一样)
  关键字词设置: (注:同上)
  正文分页设置: (注:这里演示<设置标签>)

  设置标签
  下页开始标记:下页结束标记:>[下一页]
  分页绝对链接: (注:感觉没什么用处?不知何意,请老大指教!)

五、项目编辑--属性设置

  (注:到这一步显示出正文,说明测试采集目标成功,这里要注意的是:文中的图片显示不出来是正常的,发表后自然会显示出来)

六:项目编辑--文章属性  (注:自己设置啦~~~)

  过滤选项: (注:建议全部打上勾)


satan_zero兄的【经验之谈】几个关键:

  1. 请选择文章中独一无二、每篇必存的代码作为代码。这要看你的心思了,这关都通不过,
  嘿嘿,还是去买本有讲HTML的书或者找个教程看看

  2. 请在不要复制2005版中的代码作为标签。因为在代码视图中有些代码不可见,这应该是中鸟(嘿嘿)采集失败的原因,
  譬如:2个字节的空格的代码  ,代码视图中就看不到。
  解决办法:用记事本或者文本编辑器打开源代码看。

文件比较大,传到自己的空间里,分三部分下载:
  http://www.itcfan.com/cj/1.part1.rar
  http://www.itcfan.com/cj/2.part2.rar
  http://www.itcfan.com/cj/3.part3.rar

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表