如何寻找合适的kol
webscraper简介
Web Scraper 是一款网页数据采集工具,只要是我们日常在网页上可以浏览到的内容,它都可以帮助我们爬取下来。
Web Scraper最大的特色是免费和免编程,不懂编程的人也很容易操作,尽管在爬取网页数据方面也有很多工具,但综合对比来看还是web scraper更加方便快捷一些。
Web Scraper主要有以下几个特点:
- 轻量级,只是浏览器插件,无需在电脑中安装
- 免费,并且没有按下载数据条数收费的要求
- 免编程,好上手,一天学会无压力
- 唯一缺点是免费版不能设置定时任务
webscraper下载
登录官方网站进行插件安装,插件有两种浏览器可供选择:火狐或者谷歌的Chrome。我选择的是火狐浏览器,如果选用Chrome浏览器,则需要科学上网。
(具体下载网址不方便粘贴,可以私信获取)
知乎关键字搜索信息爬取代码
{"_id":"zhihuchaxun","startUrl":["
https://www.zhihu.com/search?type=content&q=k30s至尊"],"selectors":[{"id":"question","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div[] div.List-item","multiple":true,"delay":"3000"},{"id":"url","type":"SelectorLink","parentSelectors":["question"],"selector":"div [itemprop='zhihu:question'] a","multiple":true,"delay":0},{"id":"title","type":"SelectorText","parentSelectors":["url"],"selector":".QuestionHeader h1","multiple":false,"regex":"","delay":0},{"id":"view","type":"SelectorText","parentSelectors":["url"],"selector":"div.NumberBoard-item strong","multiple":false,"regex":"","delay":0},{"id":"follower","type":"SelectorText","parentSelectors":["url"],"selector":"button strong","multiple":false,"regex":"","delay":0},{"id":"answer","type":"SelectorText","parentSelectors":["url"],"selector":"div.Card:nth-of-type(1) a.QuestionMainAction","multiple":false,"regex":"","delay":0}]}
webscraper安装
下载好插件后,打开火狐浏览器,点击右上角的几个横杆按钮,然后点击附加组件
然后点击扩展
点击右边的齿轮,选择从文件安装附加组件
找到对应下载的插件位置,然后点击插件打开
插件显示安装完场,点击添加
然后我们就可以看到浏览器的右上角有一个类似蜘蛛网的图标,说明webscraper已经安装完成。
webscraper使用
同样点击右上角的三个横杆,选择web开发者
然后点击第一个选项,切换工具箱
然后就可以看到浏览器下方出现了页面,点击最右边的图标就可以打开webscraper
然后点击import sitemap,导入搜索程序
把知乎的爬取代码复制到上面的框里
然后自己写个合适的名字(最好用英文,不支持中文),点击保存
然后就可以看到新建好的搜索程序了,直接点击搜索程序
进去以后是这个界面
然后点击中间的选项,选择edit metadata修改搜索词
比如修改成搜索关键词“好物”然后保存
点击中间选择的scrape,开始搜索
按照默认设置,点击开始就可以了
接着我们会看到弹出一个新的页面框,并且页面框会自己动,不要关闭
等什么时候页面框自己关闭,然后爬取信息就已经结束了,点击refersh可以查看爬取到多的信息
然后同样点击中间选项的最后一个选项,到出数据
然后点击download就可以下载到本地了。
然后打开表格就可以看到我们爬取到的数据了
通过对数据回答数和浏览数的筛选,我们就可以选出,回答数较少,浏览数较多的问答进行回答了。