室内设计培训
平面设计培训
部落窝教育
网站首页 >> 网站网店运营 >> 文章内容

语音教程:用robots屏蔽死链和重复页面方法(上)

[日期:2010-11-23]   来源:IT部落窝  作者:IT部落窝   阅读:1996[字体: ]
内容提要:本文首先详细介绍robots文件的基础知识,然后深入讲解robots文件屏蔽死链接和重复页面。

  当搜索引擎蜘蛛爬取访问一个网站时,首先第一件事情就是看该网站根目录下是否有robots.txt文件。如果有robots.txt文件,然后就根据robots.txt文件里面的语句来进行访问爬取网站,如果robots.txt文件语句中有声明网站中哪些网页不允许搜索引擎收录,那么蜘蛛是不会爬取所指定的网页的。

  从上面一段文字我们可以明确三件事情。

  robots.txt文件的正确位置,应该放在站点根目录下,robots.txt文件是搜索引擎中访问网站的时候要查看的第一个文件。

  Robots.txt文件的作用:引导搜索引擎只收录我们希望他们收录的内容。这一点非常重要,可以从很大程度上提高蜘蛛爬行的效率。

  可以利用robots.txt文件定义的语句来巧妙屏蔽网站中的死链接和重复页面。

  Robots.txt文件的相关语法介绍

  Robots.txt文件的文件名:robots.txt。命名不允许出现任何错误,必须小写,不要忘记字母's',如果命名错误,Robots文件将失去对搜索引擎的限制作用。Robots.txt文件的格式:文本文件。

  上面介绍了这么多,我们可以这样来理解Robots.txt文件。仅当网站包含不希望被搜索引擎收录的内容时,才需要使用Robots.txt文件。如果你希望搜索引擎收录网站上所有内容,可以不建立Robots.txt文件,或者是建立一个为空的文本文件。

  不过,从SEO的角度,robots.txt文件是一定要设置的,原因有以下四点:

  1.网站上经常存在这种情况:不同的链接指向相似的网页内容。这不符合SEO上讲的“网页内容互异性原则”。采用robots.txt文件可以屏蔽掉次要的链接。

  2.网站改版或URL重写优化时原来不符合搜索引擎友好的链接需要全部屏蔽掉。采用robots.txt文件删除旧的链接符合搜索引擎友好。

  3.一些没有关键词、不重要的页面,屏蔽掉更好。

  4.一般情况下,站内的搜索结果页面屏蔽掉更好。

  下面,通过实例来介绍Robots.txt文件屏蔽死链接和重复页面的方法。

  举例一:让所有的搜索引擎蜘蛛不能爬取网站下面的 admin文件夹,但是可以访问其中的moonseo.html文件。

  Robots.txt文件中语句该这样写:

  User-agent: *

  Disallow: /admin/

  Allow:/admin/moonseo.html

  其中,User-agent: * 是代表定义允许所有的搜索引擎访问网站。Disallow是禁止、不允许的意思。第二句就是不允许搜索引擎爬取admin文件夹。Allow是运行的意思。第三句就是允许爬取admin文件夹下的moonseo.html文件。

  举例二:定义百度蜘蛛,禁止它爬取所有的动态路径的文件。

IT部落窝PS,CDR,213班 分享到: QQ空间 新浪微博 腾讯微博 人人网
photoshop教程
Photoshop教程
平面设计教程
Photoshop教程