您现在的位置: 顶尖设计 >> 网页设计 >> 建站攻略 >> 正文
搜索引擎的蜘蛛人(ROBOTS)秘密
作者:设计风  来源:中国站长学院  责任编辑:破极限设计管理员  点击:  更新:2005-9-11


我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。


对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。  


一、    robots.txt

1、 什么是robots.txt?


robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。


当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。


robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

网站 URL
 相应的 robots.txt的 URL
 
http://www.w3.org/
 http://www.w3.org/robots.txt
 
http://www.w3.org:80/
 http://www.w3.org:80/robots.txt
 
http://www.w3.org:1234/
 http://www.w3.org:1234/robots.txt
 
http://w3.org/
 http://w3.org/robots.txt






  • 上一篇文章:
  • 下一篇文章:
  • 分享此文:该页面添加到 Mister Wong 添加到雅虎Yahoo!收藏 Add to:Del.icio.us Post to Furl Digg this 添加到Google书签 reddit spurl blogmarks 365Key
    网友评论
    姓名:       
    评分: 1分 2分 3分 4分 5分



    验证码:  
    编辑推荐 人气文章
    相关文章  
    没有相关文章
      关于我们 | 联系我们 | 站点地图 | 广告投放 | 友情链接 | 在线留言 | 版权申明
    版权所有 © 2004-2007 顶尖设计(bobd.cn)
    未经授权禁止转载,摘编,复制本站内容或建立镜像. 沪ICP备07504942号
    网络110
    报警服务