Java采集器编写-序
作为一个疯狂的变态,我写了好多采集器,但是步骤无非就是那几步,本来这些话是准备写在第一篇采集技术文章里的,但是总觉得不合适。所以就写了个序.
做Java今年过了就满6年了,这6年来打下了很多基础,所以写采集器还是得心应手的。
想写出一个采集器就必须掌握如下技能,当然这些技能我会在后面的经验里带过。
操作方法
- 01
学会用firebug或者httpwatch抓包分析数据,我会用firebug多点。
- 02
学会分析网页节点
- 03
学会使用jsoup来从第3步返回的数据流中分析并获取我们想要的网页内容
- 04
学会简单的正则表达式来对第4步中得到的数据深加工。
- 05
学会使用xmlprc向wordpress或cnblogs等支持xmlrpc协议的网站发表帖子
- 06
完成某个网站模块的抓取和开源此项目。
赞 (0)