成都网站建设,原新盒子网络工作室
专业设计,打造专业品质
Professional design, to create professional quality
百度蜘蛛如何爬行和抓取?
来源: 作者:成都网站制作 日期:2012-10-30 23:24:31 点击:0

 
   SEO们每天都会研究爬虫爬取了网站哪些网页,喜欢哪些内容,来的次数多不多等等,成都新盒子网络工作室为大家小结蜘蛛爬寻轨迹:
   
 
     蜘蛛爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务搜索引擎用来爬行和访问页面的程序被称为蜘蛛( spider),也称为机器人(bot)。搜索引擎蜘蛛访问网站页面时类似于普通用户使用的浏览器。蜘蛛程摩发出页面访问请求后,服务器返回HTML代码,蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度,都使用多个蜘蛛并发分布爬行。
    
  
    蜘蛛访问任何一个网站时,都会先访问网站根目录下的robots.txt文件。如果robots.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不抓取被禁止的网址。和浏览器一样,搜索引擎蜘蛛也有标明自己身份的代理名称,站长可以在日志文件中看到搜索引擎的特定代理名称,从而辨识搜索引擎蜘蛛。


    跟踪链接为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,这也就是搜索引擎蜘蛛这个名称的由来。
   
  
     整个互联网是由相互链接的网站及页面组成的。从理论上说,蜘蛛从任何一个页面出发,顺着链接都可以爬行到网上的历有页面。当然,由于网站及页面链接结构异常复杂,蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

 
     最简单的爬行遍历策略分为两种,一种是深度优先,另一种是广度优先。所谓深度优先,指的是蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。


     此文章由成都新盒子网络工作室分析总结;仅供参考;不作商业用途;转载请注明文章来源;更多详情请参与|:http://www.sosbox.cn
 

Address
咨询热线:028-85555316 and 15378179975
地址:成都市青羊区北大街19号正成·财富领地1栋2901(省市政务中心斜对面)
电话:028-85555316 15378179975
网址:http://www.sosbox.cn/  QQ:357898628 snjeso@qq.com
2011 sosbox.cn , All Right Reserved 蜀ICP备09022060号
Share
更多
收缩
  • 电话咨询

  • 4000-855-316
  • 028-85555316
  • 15608036768