网站运营
联系我们
robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
robots文件,网站即使允许抓取所有内容,建议也要建一个空间robots.txt文件,放在根目录下
针对robots.txt的格式符号进行一下介绍
user-agent:指以下规则针对哪个蜘蛛,*代表着搜索引擎引擎。
user-agent:Baiduspider 就是只针对百度蜘蛛
user-agent:Googlebot 只针对google蜘蛛
Disallow:告诉蜘蛛不要抓取那些文件或者目录。
Disallow:禁止目录必须每行一个,不能写在一行里
禁止所有搜索蜘蛛抓取
User-agent:*
Disallow:/
Disallow: /目录名字/ 说明(这里设定禁止蜘蛛抓取的目录名称)
例如,想禁目Msn蜘蛛抓取admin文件夹,可以设代码如下:
User-agent: Msnbot
Disallow: /admin/
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,设置代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取,设置代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
只充许某个搜索引擎蜘蛛抓取目录文件,设置代码如下:
User-agent: 搜索引擎蜘蛛名字 说明(上面有说明蜘蛛的名字)
Disallow: