语音教程：用robots屏蔽死链和重复页面方法（上）

内容提要：本文首先详细介绍robots文件的基础知识，然后深入讲解robots文件屏蔽死链接和重复页面。

　　当搜索引擎蜘蛛爬取访问一个网站时，首先第一件事情就是看该网站根目录下是否有robots.txt文件。如果有robots.txt文件，然后就根据robots.txt文件里面的语句来进行访问爬取网站，如果robots.txt文件语句中有声明网站中哪些网页不允许搜索引擎收录，那么蜘蛛是不会爬取所指定的网页的。

　　从上面一段文字我们可以明确三件事情。

　　robots.txt文件的正确位置，应该放在站点根目录下，robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件。

　　Robots.txt文件的作用：引导搜索引擎只收录我们希望他们收录的内容。这一点非常重要，可以从很大程度上提高蜘蛛爬行的效率。

　　可以利用robots.txt文件定义的语句来巧妙屏蔽网站中的死链接和重复页面。

　　Robots.txt文件的相关语法介绍

　　Robots.txt文件的文件名：robots.txt。命名不允许出现任何错误，必须小写，不要忘记字母's'，如果命名错误，Robots文件将失去对搜索引擎的限制作用。Robots.txt文件的格式：文本文件。

　　上面介绍了这么多，我们可以这样来理解Robots.txt文件。仅当网站包含不希望被搜索引擎收录的内容时，才需要使用Robots.txt文件。如果你希望搜索引擎收录网站上所有内容，可以不建立Robots.txt文件，或者是建立一个为空的文本文件。

　　不过，从SEO的角度，robots.txt文件是一定要设置的，原因有以下四点：

　　1.网站上经常存在这种情况：不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。

　　2.网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。

　　3.一些没有关键词、不重要的页面，屏蔽掉更好。

　　4.一般情况下，站内的搜索结果页面屏蔽掉更好。

　　下面，通过实例来介绍Robots.txt文件屏蔽死链接和重复页面的方法。

　　举例一：让所有的搜索引擎蜘蛛不能爬取网站下面的 admin文件夹，但是可以访问其中的moonseo.html文件。

　　Robots.txt文件中语句该这样写：

　　User-agent: *

　　Disallow: /admin/

　　Allow：/admin/moonseo.html

　　其中，User-agent: * 是代表定义允许所有的搜索引擎访问网站。Disallow是禁止、不允许的意思。第二句就是不允许搜索引擎爬取admin文件夹。Allow是运行的意思。第三句就是允许爬取admin文件夹下的moonseo.html文件。

　　举例二：定义百度蜘蛛，禁止它爬取所有的动态路径的文件。

分享到： QQ空间新浪微博腾讯微博人人网