注册/登录

通用的PHP网站后台管理系统

博客、文章系统、商城、企业网站、个性化论坛等随心变

免费商业博客管理系统

一个空间2个网站的全能型博客系统,并且不收取任何授权费用

个人博客系统免费下载

本站还有PHP个人博客系统网站源码和个人博客模板免费下载
投稿 • 技术咨询

当前位置:首页 -> 网络技术 -> 免费SEO教程 -> 文章正文

网站根目录下的robots.txt写法和robots txt协议规则

发布者:长铁  Time:  阅读数:?robots
x
        robots txt文件的作用:
        网站根目录下的robots txt文件是写给搜索引擎“看”的,用户网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。例如网站后台管理系统,或者涉及到隐私的内容,或者秘密内容,或者仅限小范围传播的内容。虽然此文件没有任何外部的链接,但是一般情况下,搜索引擎还是会定期自动检索网站的根目录是否存在此文件。
        如果您想让搜索引擎抓取收录网站上所有内容,请设置网站根目录下的robots.txt文件内容为空,或者删除网站根目录下的robots.txt文件。
        robots txt文件的起源:
        Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)。
        robots.txt并不是某一个公司制定的,真实Robots协议的起源,是在互联网从业人员的公开邮件组里面讨论并且诞生的。1994年6月30日,在经过搜索引擎人员以及被搜索引擎抓取的网站站长共同讨论后,正式发布了一份行业规范,即robots.txt协议。慢慢的,这一协议被几乎所有的搜索引擎采用,包括中国的搜索引擎公司。

robots txt的写法:
1.禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: / (*为通配符,/为目录)
2.禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
3.允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
4.使用 $ 匹配网址的结束字符
Disallow: /*.asp$
5.禁止爬寻admin目录下面的目录
Disallow: /admin/ 
6.禁止访问/abc/目录下的所有以".htm"为后缀的URL(包含子目录)
Disallow: /abc/*.htm 
7.禁止访问网站中所有包含问号 (?) 的网址
Disallow: /*?* 
8.禁止抓取网页所有的.jpg格式的图片
Disallow: /.jpg$ 
9.禁止爬取user文件夹下面的mimi.html文件。
Disallow:/user/mimi.html (例如商业机密或隐私内容)
10.这里定义是允许爬寻mimi目录下面的目录
Allow: /mimi/
11.允许爬寻tmp的整个目录
Allow: /tmp 
12.仅允许访问以".htm"为后缀的URL。
Allow: .htm$ 
13.允许抓取网页和gif格式图片
Allow: .gif$ 

本文地址:http://www.02408.com/p-robots.html

评论专区:

名 称必填

邮 箱必填

网 址选填

验 证

添加表情

最新评论

    1 楼
    游客
    Time:
     666  
    长铁

    专题/发布者:

          长铁,www.02408.com网站站长,民间程序员,初中毕业,自封的全能型网...

    置顶信息

  1. 02408免费个人博客系统(兼多用户博客系统)源码下载地址
  2. 关于02408.com免费商业博客系统
  3. 1元秒杀网站模板(当前页面仅限秒杀抢购功能演示)
  4. 怎么创建自己的博客
  5. 互联网创业,用手机版html5网站做安卓版app开发的省钱技巧
  6. 手机app开发公司接单流程和报价方式
  7. 如何学习php,学习php需要什么基础
  8. 更多..

    按标签查询

    更多..

    按时间查询

    2018年11月(7)2018年10月(7)2018年09月(4)2018年08月(1)2018年07月(3)2018年06月(9)2018年05月(3)

    网站分类:

    网络技术

    创业赚钱

    网络热点

    谷歌广告

    x