怎么让搜索引擎爬虫抓取自己的网站

我们经常说做优化要让搜索引擎从种子站点开始抓取,基于搜索引擎的蜘蛛型结构,这种非线性的网页组织结构,就会出现一个抓取顺序的问题,这种抓取顺序的策略必须保证尽可能地抓取所有网页。

操作方法

  • 01

    一般来说,爬虫选择抓取蝴蝶型左边的结构为抓取出发点,典型的如sina和sohu这样的门户网站的主页,每次抓取网页之后分析其中的URL,这种字符串形式的链接是指向其他网页的URL,它们指引着爬虫抓取其他网页。基于这点我们可以初步理解引擎先左后右,先上后下的抓取原因了。

  • 02

    深度优先的策略,深度优先的遍历策略类似家族继承策略,典型的如封建帝王的继承,通常为长子,如果长子去世,长孙的优先级大于次子的优先级,这点大家多多仔细分析琢磨下,如果长子和长孙都已经去世,那么次子继承,这种继承上的优先关系也称深度优先策略。

  • 03

    宽度优先的策略,宽度优先我们又称为广度优先,或者叫层次优先,例如:我们在给祖辈和父辈还有平辈敬茶的时候先给最年长的祖辈,其次为父辈,最后为平辈,在爬虫抓取上也采取了这样的策略。基于使用宽度有限的策略主要原因一下几点:

  • 04

    首页重要的网页往往离种子比较近,例如我们打开新闻站的时候往往是最热门的新闻,随着不断的深入冲浪,PV值增加,所看到网页重要性越来越低。万维网的实际深度最多能达到17层,到达某个网页的路径深入很多,但是总存在一条很短的路径。

  • 05

    宽度优先有利于多爬虫的合作抓取,这些都是是根据前辈的资料分析和IIS日志分析,暂且认为,有不同见解,欢迎讨论交流,多爬虫合作通常先抓取站内连接,遇到站外连接然后开始抓取,抓取的封闭性很强。

  • 06

    链接的优化,避抓取链接的死循环,同时也避免该抓取的资源没有得到抓取,浪费大量的资源做无用功。网页抓取优先策略,网页的抓取优先策略也称为面页选择问题,通常抓取重要性的网页,这样保证有限资源,爬虫,服务器负载。尽可能的照顾到重要性高的网页,这点应该很好理解。那么哪些网页才是重要性的网页呢,网页的重要性判断因素很多,主要有链接欢迎度,链接的重要度和平均深度链接,网站质量,历史权重等主要因素。

  • 07

    链接的欢迎度主要是由反向链接的数量和质量决定,我们定义为IB。链接的重要度,是一个关于URL字符串的函数,仅仅考察字符串本身,比如认为.com、home的URL重要度比.cc和map较高,这里是比方不是绝对,就如我们通常默认首页index.XX一样,要定义其他名称也可以,另外排名是个综合因素,com的不一定排名就好,只是其中一个很小的因素而已),我们定义为IL。

  • 08

    平均连接深度,个人鄙见,根据上面所分析的宽度优先的原则计算出全站的平均链接深度,然后认为距离种子站点越近重要性越高。我们定义为ID。ID由宽度优先的遍历规则保证,因此不作为重要的指标函数,为了保证重要性高的网页被抓取,所以,这样的抓取完全是合理,科学的。

(0)

相关推荐

  • 吸引百度蜘蛛抓取的方法

    操作方法 01 8.内链建设 蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以帮助蜘蛛抓取到更多的页面,促进网站的收录.内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热 ...

  • 一键抓取网站图片(如何抓取网页上的图片)

    企业在网站建设时,很多同时也做了手机端的网站,为了丰富网站的版面和内容,给网站添加了大量的图片做美化.网站的图片是一个网站能给用户最直观的信息表现,而对于搜索引擎而言,蜘蛛在随机抓取网站图片时候的识别 ...

  • Excel如何抓取网站数据并设置自动更新实时数据

    网站发布的实时数据,往往是我们进行统计分析的重要信息源. 但是,每次都要 复制网站上的数据然后粘贴到Excel,这样操作会比较繁琐. 其实,我们可以通过设置,实现 让Excel自动抓取网站的实时最新数 ...

  • 一键抓取网站图片(在线网页图片提取)

    爬取网页图片,怎么爬取网页图片,大家一看到爬取应该就想到python.但是为了爬取一些数据,花上几个月的时间去学习python编程技术,时间也浪费了还不一定能爬取成功.今天给大家分享一款免费的免费爬取 ...

  • 怎么抓取彩票开奖结果数据

    本为大家介绍如何用爬虫批量抓取彩票开奖结果数据 操作方法 01 步骤一:下载安装并注册登录 1.打开官网,下载并安装爬虫软件 2.点击注册登录,注册新账号然后登录 02 步骤二:新建采集任务 1.复制 ...

  • 自动抓取163新闻的Python爬虫源码_Python基础

    Python爬虫的学习,自动抓取163新闻的Python爬虫源码,这是一个用Python语言编写的,自动抓取网易新闻的python爬虫实现方法一文. 抓取思路 01 Python爬虫的抓取思路是:(1 ...

  • 网站如何更好的被百度蜘蛛抓取呢?

    操作方法 01 现在有哪些方法可以增加百度蜘蛛的收录? 1.网站及页面权重 这个肯定是首要的了,权重高.资格老.有权威的网站蜘蛛是肯定特殊对待的,这样的网站抓取的频率非常高,而且大家知道搜索引擎蜘蛛为 ...

  • 造成百度蜘蛛抓取网站异常的常见原因总结

    Baiduspider爬行异常的常见原因是网站不稳定,Baiduspider在尝试连接到您网站的服务器时暂时无法连接,可能是您的网站IP地址错误,或者是百度蜘蛛被域名服务商封禁.有些网站的内容用户可以 ...

  • 网站显示蜘蛛抓取异常的原因

    有些页面出现百度蜘蛛"抓取异常"的提醒,个别页面抓取异常是正常的,但是大量内容无论内容质量优质与否都无法正常抓取就有问题了.这时搜索引擎会认为网站的用户体验不达标,对网站产生一系列 ...