Ajax加载页面采集
相信很多朋友在采集的时候碰到过一些网页是需要不停下拉才会加载新的数据,在设置好采集规则,进行采集时总是少采或者采不到数据。像这种类型的网站,通常都是运用了Ajax网页加载技术,这是网站为了防止采集进行的设置,为了应对这一类网站Ajax加载的网页,我们可以通过下面的操作来避免数据少采或者采集不到的情况:
操作方法
- 01
我们通过新浪微博的页面来进行演示 在下图中可以看到当我们把微博的页面下拉至底部的时候就会出现正在加载中的字样,随着我们的下拉,页面会有新的数据加载出来。
- 02
在八爪鱼创建好新的采集任务后,我们打开微博页面,建立一个抓取微博信息的循环列表,在图中的红色方框中我们可以看到建立的列表中只有未下拉页面时所显示的微博
- 03
当我们进行采集的时候运行这个规则进行采集的时候采集到的只有页面中显示的14条信息
- 04
要解决这个情况,我们需要回到我们的规则编辑界面,点击流程编辑器中的打开网页步骤,选择右侧的高级选项,勾选页面加载完成向下滚动,设置好滚动方式:滚动到底部、滚动次数和每次滚动的间隔(滚动次数和间隔需要根据不同的网页和网络的速度进行设置)如下图所示:
- 05
这里是我根据自己的情况进行的设置,完成后点击保存,进行采集
- 06
进过设置后,这一次我们就可以将这一页微博的信息都完成的采集了下来
- 07
今后大家遇到这类Ajax下拉加载的网页就可以参考这个示例的方法进行采集规则的设置
赞 (0)