当搜索引擎蜘蛛爬取访问一个网站时,首先第一件事情就是看该网站根目录下是否有robots.txt文件。如果有robots.txt文件,然后就根据robots.txt文件里面的语句来进行访问爬取网站,如果robots.txt文件语句中有声明网站中哪些网页不允许搜索引擎收录,那么蜘蛛是不会爬取所指定的网页的。
从上面一段文字我们可以明确三件事情。
robots.txt文件的正确位置,应该放在站点根目录下,robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件。
Robots.txt文件的作用:引导搜索引擎只收录我们希望他们收录的内容。这一点非常重要,可以从很大程度上提高蜘蛛爬行的效率。
可以利用robots.txt文件定义的语句来巧妙屏蔽网站中的死链接和重复页面。
Robots.txt文件的相关语法介绍
Robots.txt文件的文件名:robots.txt。命名不允许出现任何错误,必须小写,不要忘记字母's',如果命名错误,Robots文件将失去对搜索引擎的限制作用。Robots.txt文件的格式:文本文件。
上面介绍了这么多,我们可以这样来理解Robots.txt文件。仅当网站包含不希望被搜索引擎收录的内容时,才需要使用Robots.txt文件。如果你希望搜索引擎收录网站上所有内容,可以不建立Robots.txt文件,或者是建立一个为空的文本文件。
不过,从SEO的角度,robots.txt文件是一定要设置的,原因有以下四点:
1.网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。
2.网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。
3.一些没有关键词、不重要的页面,屏蔽掉更好。
4.一般情况下,站内的搜索结果页面屏蔽掉更好。
下面,通过实例来介绍Robots.txt文件屏蔽死链接和重复页面的方法。
举例一:让所有的搜索引擎蜘蛛不能爬取网站下面的 admin文件夹,但是可以访问其中的moonseo.html文件。
Robots.txt文件中语句该这样写:
User-agent: *
Disallow: /admin/
Allow:/admin/moonseo.html
其中,User-agent: * 是代表定义允许所有的搜索引擎访问网站。Disallow是禁止、不允许的意思。第二句就是不允许搜索引擎爬取admin文件夹。Allow是运行的意思。第三句就是允许爬取admin文件夹下的moonseo.html文件。
举例二:定义百度蜘蛛,禁止它爬取所有的动态路径的文件。