网站蜘蛛程序

Robots.txt写法与其重要性

关于Robots的名词解释,我已经写了一篇文章,在第26条,我这里再不重复了.

那篇文章关于Robots的解释比较专业,很难理解。那么我们通俗的解释是这样的:

如果张三和李四是好朋友,张三想去李四家玩,到了李四家门口后,是不是要先敲门或者打电话告诉李四?然后李四要决定是否要张三过来,或者等多久.

其实我们的网站也是一样的道理,只要网站在互联网里面,都会有搜索引擎蜘蛛过来抓取网页中的内容,那么在蜘蛛过来你网站之前,首先要访问我们网站的Robots.txt协议文件,看看我们的网站允许蜘蛛抓取哪些内容.哪些不能让蜘蛛抓取.

比如;我们网站的后台不要让蜘蛛抓取,我们网站所用到的模板主题不要让蜘蛛抓取等等.

所以通俗的讲:robots文件就是告诉蜘蛛哪些不能抓取,哪些可以抓取.

那么有的朋友会问:可不可以不写呢?随便它抓取?

如果不写的话,默认是所有蜘蛛程序抓取所有网页,当然按照搜索引擎优化原理,是需要写的。

就像你家一样,都有一个门每天要关着,有人进来要敲门一样的道理.

好吧,有点啰嗦了,讲重点吧,如何写robots.txt文件呢?先看案例吧:

淘宝的Robots.txt

淘宝robots

 

百度的Robots.txt

baidu的robots

1.我们首先要定义蜘蛛类型,用User-agent,并且第一个字母要大写,冒号后面要空格

比如:User-agent: Baiduspider   就是:指定为百度蜘蛛的意思

如果User-agent: *  这”*”代表:定义所有蜘蛛

2.用Disallow与Allow告诉搜索引擎哪些可以抓取,哪些不可以抓取

比如

Disallow: /baidu   意思是禁止抓取含有baidu开头为路径的页面

Allow: /wenzhang 意思是允许抓取含有wenzhang开头为路径的页面

Disallow: /homepage/  意思是禁止抓取homepage栏目下所有的文件

Disallow: /s?  意思是禁止抓取S开头的动态页面

还有一种用的比较少的符合是:$,结束符号的意思,比如

User-agent: BaiduSpider

Allow: /*.gif$

Disallow: /*.jpg$

意思是:只允许百度搜索引擎抓取.gif的图片,不允许百度搜索引擎抓取.jpg图片

更深一点的案例剖析:

Disallow应用:

禁止整站被抓取:

Disallow: /

禁止根目录下的jaxseo目录抓取:

Disallow: /jaxseo/

禁止根目录下的woniuseo目录下的单个页面jaxseo.html被抓取:

Disallow:/jaxseo/jaxseo.html

禁止全站含有?的页面被抓取:

Disallow:  /*?*

禁止全站含有jaxseo的页面被抓取:

Disallow:  /*jaxseo*

禁止全站后缀为.aspx的页面被抓取:

Disallow:  /*.aspx$

禁止全站后缀为.jpg的文件被抓取:

Disallow:/*.jpb$

Allow应用:

允许所有页面被抓取:

Allow: /

允许jaxseo的目录被抓取:

Allow: /jaxseo/

允许抓取.html的页面:

Allow: /*.html$

允许抓取.jpg的图片:

Allow: /*.jpg$

好吧,下面做一个总结,把我们robots.txt经常用的符号的作用与意义详细解释,以及常用的蜘蛛名称

robots协议总结

大家是不是在看到最后面有一个Sitemap?这个网站地图可以放到robots,也可以不放.

比较简单吧,那么有的朋友懂一点SEO会问了,我的网站刚上线,而且还没有做好,不想被蜘蛛搜索,可不可以写成:

User-agent: *

Disallow: /

答案是:不可以这样写。为什么?

先问你自己:如果你的房门上一直写着:不允许某某某过来玩,而某某某第一次过来看到后,他转身离开了,第二次过来,看到后,又离开了,第三次过来后,又转身离开了,试想一下,那个某某某还会继续来吗?

同样的道理,如果你一直禁止搜索引擎过来抓取,那么蜘蛛下次就不抓取你的网站了,会影响网站收录,最好的办法是:先把网站首页标题写好,品牌名写好,让蜘蛛先抓取首页标题.

最后一个问题要告诉大家的是;如果你把文件写好后,要上传到你网站的根目录下,即:www.abc.com/robots.txt

好吧,关于robots文件的常识先写到这.

 

 

留下评论