应用 java 的开源库,编写一个搜索引擎,这个引擎能爬取一个网站的内容。并根据网页内容进行深度爬取,获取所有相关的网页地址和内容,用户可以通过关键词,搜索所有相关的网址。
(1) 用户可以指定爬取一个url对应的网页的内容。 (2) 对网页内容进行解析,并获取其中所有的url链接地址。 (3) 用户可以设定爬取深度,代表着从初始url对应的页面开始,可以爬取其中所有的url对应的网页内的url,以此类推。深度越大,能爬取到的网站越多。 (4) 对爬取到的url内容进行保存、建立索引。建立索引的内容是url地址本身,和url对应的网页标题。 (5) 用户可以通过关键词对网址进行搜索,找出有该关键词的url地址。 (6) 建立索引和搜索索引的过程能智能识别中文关键词,能对关键词进行分词操作。 (7) 用户可以指定保存索引的地址、初始url、爬取深度、进行搜索的关键词和最大匹配项。
新闻热点
疑难解答