帐号: 密码:
// 设为首页 // 收藏本站 // 请您留言 // 网址导航
远方教程-满足你的求知欲!
站内搜索:
HTML ASP PHP CSS DIV Dreamweaver Photoshop Word Excel PPT SEO技巧
您当前位置:网站首页 >> 站长讲堂 >> SEO优化 >> 阅读文章

网站页面禁止抓取和收录的2个方法

来源:远方教程 作者:远方教程 发布时间:2014-12-06 查看次数:5133 访问[新版]

  有的时候,站长并不希望某些页面被抓取和收录,如付费内容、还在测试阶段的页面复制内容页面等。网站上不出现链接,或者使用davaScript. 1~ lash链接,使用nofollow等方法都不能保证页面一定不被收录·站长自己虽然没有链接到不想被收录的页面,其他网站可能由于某种原因出现导入链接,导致页面被收录。
  要确保页面不被收录,需要使用robots文件或Meta Robots标签。
1.  robots文件
  搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有一个命名为robots.txt的纯文本文件,robots.txt用于指令搜索引擎禁止抓取网站某些内容或指定允许抓取某些内容。
  只有在需要禁止抓取某些内容时,写robots.txt才有意义。robots文件不存在或者是空文件都意味着允许搜索引擎抓取所有内容。有的服务器设置有问题,robots文件不存在时会返回200状态码及一些错误信息,而不是404状态码,这有可能使搜索引擎错误解读robots文件信息,所以建议就算允许抓取所有内容,也要建一个空的robots.txt文件,放在根目录下。
  robots文件由记录组成,记录之间以空行分开。记录格式为:
  <域>:<可选空格><域值><可选空格>
  最简单的robots文件:
User-agent:*
Disallow:/
  上面这个robots文件禁止所有搜索引擎抓取任何内容。
User-agent:指定下面的规则适用于哪个蜘蛛。通配符*代表所有搜索引擎。只适用于百度蜘蛛则用:
User-agent: Baiduspider
只适用于Google蜘蛛则用:
User-Agent: Googlebot
Disallow:告诉蜘蛛不要抓取某些文件或目录。
Disallow:禁止的目录或文件必须分开写,每个一行。
  下面的指令相当于允许所有搜索引擎抓取任何内容:
User-agent:*
Disallow:
  主流搜索引擎都遵守robots文件指令,robots. txt禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被robots文件禁止抓取的URL还是可能出现在搜索结果中。只要有导入链接指向这个URL ,搜索引擎就知道这个URL的存在,虽然不会抓取页面内容,
但是可能以下面几种形式显示在搜索结果中:
    .只显示URL,没有标题、描述。Google常这样处理。
    .显示开放目录或雅虎等重要目录收录的标题和描述。
    .导入链接的锚文字显示为标题和描述。百度常这样处理。
    要想使URL完全不出现在搜索结果中,需要使用页面上的meta robots标签。

第1页 第2页
打印 打印 | 关闭 关闭 评论
相关文章
图片新闻
站内搜索  
搜索
猜您喜欢  
最新更新  
阅读排行  
关于我们 | 联系方式 | 大事记 | 免责声明 | | 给我留言
部分广告源自金山联盟2345联盟 QQ咨询 站长之家QQ群:232617873
Copyright 2024 远方教程 © All Rights Reserved.

回顶部