搜索引擎robots.txt协议写法含义
您的位置:主页 > 资讯中心 >

搜索引擎robots.txt协议写法含义

robots.txt 2014-12-03

  搜索引擎robots.txt协议写法含义代表什么意思呢?如果不想搜索引擎的蜘蛛程序抓取网站所有页面或者是网站某类页面,那么我们就需要了解搜索引擎蜘蛛排除robots.txt协议。robots.txt/般都放置在网站的根目录下就说明了网站中的哪些网页是搜索引擎蜘蛛可以索引的,那些页面是搜索引擎蜘蛛不可以索引的。

  /、robots.txt协议的代码形式

  robots.txt协议是使用了特定的语法才能使爬虫理解文件中的含义。robots.txt基本的形式如下:

  User-agent:*

  Disallow:/

  所有的robot文件中/定要有以上两句语句。

  第/句User-agent的意思是告诉蜘蛛所对应的是哪里个搜索引擎,“*”是代表所有的蜘蛛;

  第二句Disallow是告诉搜索引擎蜘蛛那些地方不可以索引,可以针对某/个搜索引擎,也可能针对所有的搜索引擎。“/”是代表所有的目录;

  提示,在User-agent和Disallow后面都需要加冒号(:)它起的作用是要求搜索引擎时和蜘蛛注意的信息;

  二、实例讲解

  1、要求所有搜索引擎不能访问/kehu文件夹下的网页;

  User-agent:*

  Disallow:/ kehu/

  2、要求百度搜索引擎不能访问/kehu文件平下的所有网页;

  User-agent: Baiduspider

  Disallow:/ kehu/

  3、要求百度搜索引擎和谷歌搜索引擎都不能访问/kehu文件平下的所有网页

  User-agent: Baiduspider

  Disallow:/ kehu/

  User-agent: googlebot

  Disallow:/ kehu/

  4、屏蔽所有动态页面被搜索引擎收录

  User-agent: *

  Disallow:/*?*

  5、禁止所有搜索引擎抓取指定的某个页面的

  User-agent: *

  Disallow:/指定的某个页面的URL地址

  提示,搜索引擎蜘蛛访问robots.txt文件时是丛上往下访问,当搜索引擎蜘蛛访问到合适规定的时就会停止读取,并根据规则访问网站。

  三、各搜索引擎蜘蛛对应的英文名称

  google蜘蛛:googlebot

  百度蜘蛛:baiduspider

  搜狗蜘蛛:sogou spider

  搜搜蜘蛛:Sosospider

  yahoo蜘蛛:slurp

  alexa蜘蛛:ia_archiver

  msn蜘蛛:msnbot

本文标签:robots.txt
搜索引擎robots.txt协议写法含义:https://www.web1992.com/info/281.html