图解利用Web Scraper 抓取网站数据
本篇将和大家介绍利用Web Scraper 抓取网站数据,希望对大家的工作和学习有所帮助!
操作方法
- 01
Web Scraper插件安装和界面介绍,参考如下经验。
- 02
打开了 hao123 页面,并且在此页面的底部打开了开发者工具,并且定位到了 Web Scraper 标签栏,点击“Create Sitemap”,如下图所示:
- 03
之后输入 sitemap 名称和 start url,名称只为方便我们标记,就命名为hao123(注意,不支持中文),start url 就是hao123的网址,然后点击 create sitemap,如下图所示:
- 04
之后 Web Scraper 自动定位到这个 sitemap,接下来我们添加一个选择器,点击“add new selector”,如下图所示:
- 05
首先给这个 selector 指定一个 id,就是一个便于识别 名字而已,我这里命名为 hot。因为要获取名称和链接,所以将Type 设置为 Link,这个类型就是专门为网页链接准备的,选择 Link 类型后,会自动提取名称和链接两个属性,如下图所示:
- 06
之后点击 select ,然后我们在网页上移动光标,会发现光标所到之处会有颜色变化,变成绿色的,表示就是我么当前选择的区域。我们将光标定位到需求里说的那一栏的某个链接处,例如第一个头条新闻,在此处单击,这个部分就会变成红色,说明已经选中了,我们的目的是要选多个,所以选中这个之后,继续选第二个,我们会发现,这一行的链接都变成了红色,没错,这就是我们要的效果。然后点击"Done selecting!",最后别忘了勾选 Multiple ,表示要采集多条数据,如下图所示:
- 07
最后保存,save selector。点击Element preview 可以预览选择的区域,点击 Data preview 可以在浏览器里预览抓取的数据。 后面的文本框里的内容,对于懂技术的同学来说很清楚,这就是 xpath,我们可以不通过鼠标操作,直接手写 xpath 也可以; 完整操作过程,如下图所示:
- 08
上一步操作完,其实就可以导出了。先别急,看一下其他的操作,Sitemap hao123 下的 Selector graph,可以看出拓扑结构图,_root 是根 selector ,创建一个 sitemap 自动会有一个 _root 节点,可以看到它的子 selector,就是我们创建的 hot selector,如下图所示:
- 09
Scrape ,开始抓取数据。Sitemap hao123 下的 Browse ,可以通过浏览器直接查看抓取的最后结果,需要再,如下图所示:
- 10
最后,使用 Export data as CSV,以 CSV 格式导出,其中 hot 列是标题,hot-href 列是链接,如下图所示: