该网站综合信息及重要信息展示的集合
栏目页(列表页/栏目主页)
该栏目下所有的信息集合
单页
单独的页面,类似于企业简介,联系我们这类页面
内容页
消息/新闻内容的正文页面
搜索页
大至门户小至个人博客,一般都会提供该站的内容检索功能
标签页(关键字列表页)
类似搜索页
功能页面
比如登录页、信息提交页面等
我们一般设置的采集入口网址为,栏目页、搜索页、标签页具有信息集合的页面。
例如我们要在“北京科技委”这个网站上按关键字搜索出来含关键字“智慧城市”所有信息。
智慧城市&pos=&od=&date=&date=
智慧城市&pos=&od=&date=20170523&date=20180523
URL中不难看出一个是开始时间一个是结束时间我们采用第二个地址做为入口采集地址
我们随便点一页查看URL的变化
智慧城市&pos=&od=&date=20170523&date=20180523
参数中的p=4就是我们的页码,如果没有特殊情况,至此入口地址准备一切就绪了。
配置如下图:
配置完记得点击【添加】->【完成】。
注意:
3. 设置采集地址
采集源设置成功后,我们需要设置在源中需要采集的地址。分析该网站的展示形式不难观察出页面中已经提供了制定信息的地址,如下图红框标识
怎么提取出来呢,我们需要查看网页的源码,以chrome举例如下图,我们将对应的div标签中所有内容复制(右键Edit as HTML)。
回到操作界面点击【添加】
因为自动分析地址,该源页面上的一堆不是我们想要的地址,所有我们选择手动填写链接规则,当然也支持Xpath的方式,此步可按照自己的需求选择。
将我们在chrome中复制出来的a标签的内容粘贴至脚本规则中,将其中内容会变化的全部设置成参数(选中内容点击右侧的“参数”链接)。
注意,脚本规则中的参数没有加序号,需要我们人工判断是第几个参数,实际链接中填写参数要加上序号。然后点击【保存】即可。测试下我们的采集网址。
这是我们想要的~~
注意:
4. 设置采集内容规则
如果你经历了第一步的操作那么接下来的这一步就会很easy,内容都是从网页的源码中采集,我们已经配置好了源码采集的地址,这一步就是从源码中提取出来我们想要的内容,简单的说就是字符串的提取,字符串的替换。
这里的操作支持正则表达式提取、支持图片的下载、支持提取内容的过滤等等,就是界面不太友好,什么什么的操作还要自己多试几次才能搞清楚。
此步就不做多的介绍了,作为大牛的你是不是开始嫌弃我说的都是废话了~~~
5. 发布内容设置
以上的操作我们都做完了,采集下来的内容到哪儿了呢?能不能直接入库呢?答案是可以的!
采集下来的内容可以直接写出对应的sql直接导入到我们的数据库中,数据库支持access、mysql、sqlserver、oracle,还支持生产文件形式word、excel、text、html格式
设置任务的时候我们还可以设置一些附加的条件如下图,其他功能大家可自行发掘。
6. 任务运行
直接上图,记得一定要把任务后面三步对应的勾勾上,要不程序不会执行那一步的。
问答:
问:已经跑完的任务,在第二天跑的时候,会从头开始全新执行吗?
答:不会的,跑下来的数据系统按照你的配置记录到了本地的access数据中,再次运行的时候只追加了。其实还有另外一个问题,即使我们第三步发布内容的时候不做配置,我们仅配置和运行前两步,数据也已经存到我们本地了。按操作打开目录你会发现有一个SpiderResult.mdb的文件。Windows如果装了access直接双击就能打开了。里面记录的就是爬虫运行后的结果数据。在此也建议不直接存入我们的数据库,即第三步不做任何操作仅运行前两步,通过对SpiderResult.mdb中的数据处理后在作出进一步处理。因为小编运行的时候发现直接跑出来的结果不是完全正确的,可能和网站源有直接关系。最好先对数据检验处理一下。
问:所有网站都能爬吗?
答:有做反爬的,也能爬,但是需要做好多规则。
问:安全吗?
答:这就是模拟网站的正常访问,是对人家网站的ddos哦,频率别太快特别是除了爬别人内容外,你还爬别人的图片,人家会有可能把你IP或者你的IP段封了不让你访问。