如何使用火车头进行大量采集
火车头是一款可以大量采集原创文章的软件。
火车头采集器有哪些好处?
1、通用性强
无论新闻、论坛、视频、黄页、图片、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
七年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及.net外部编程接口处理数据,让数据都能为你所用。
火车头采集器怎么用?
1、首先打开火车头软件,打开之后在左边空白处右键新建分组,在箭头处随便填写一个分组名称,保存。如图所示:
2、右键你刚才创建的分组,点击新建任务,会弹出一个窗口如下:任务名称可以填写你网站的名称,方便以后采集,站点多了好区分。自动识别不用改,然后第一步点击右边的添加,把你要采集的网站网址添加进去完成即可。下边还一个添加是添加你要采集的规则,从哪个地方采集到哪个地方。比如:<ul>
<li>火车头采集器</li>
<li>火车头采集器</li>
<li>火车头采集器</li>
<li>火车头采集器</li>
<li>火车头采集器</li>
</ul>
采集规则就这么填写 第一个框填写<ul>,第二个框就填写</ul>,明白了吧。
3、填写好之后点击下边的测试网址采集。就到了如下图:点开加号出现你要采集的文章。
4、随便双击一个网址进入第二步,如图所示:左边有标题和内容两个板块,需要你设置一下,就是你要采集的标题和内容,内容的话,你可以点击一篇文章查看源文件进去看看文章的起始代码位置,去截取这段代码,放到里边,跟第一步的设置规则类似,这里就不详细说明了。设置好之后就可以点击测试一下效果了。
5、弄好之后来到第三步,如图所示:选中启用这个框
6、点击web发布配置管理进入下一个窗口,选择你要发布的模块,选择编码,然后把你的网站后台登录地址写进去,然后点击在内置浏览器登录会出现一个小窗口,登录后台账号密码登录成功后点击确定回到当天窗口,点击获取列表,会出现你网站的栏目。配置名写上你的网站名称即可,点击保存。关闭本窗口。
7、到这里火车头采集器的规则就设置好了 接下来就要采集发布了。选中三个复选框,点击发布软件就可以开始运行了,采集发布成功后,进你的网站后台就可以看到你采集到的文章了。