请选择 进入手机版 | 继续访问电脑版
查看: 59|回复: 0

robots协议高级应用的写法

[复制链接]

232

主题

244

帖子

1359

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1359

最佳新人活跃会员热心会员推广达人宣传达人灌水之王突出贡献优秀版主荣誉管理论坛元老

发表于 2017-10-13 23:00:50 | 显示全部楼层 |阅读模式
        你会使用网站搜索引擎robots.txt协议吗?大部分站长一定会说那么简单的东西,怎么可能不会,那么小编又问你是robots.txt应用高手吗?你是否还那么有自信呢?

        下面给大家带来大兵以7年的网站优化经验为大家整理的robots.txt高手进阶教程:
        robots.txt协议的高级应用:
        其实在两年前大兵就在网站上介绍过robots.txt协议应用,robots.txt协议对网站的优化起着巨大作用,现在大兵继续在这里为大家介绍robots.txt协议的高级应用。

        robots.txt协议使用要点:
        在介绍robots.txt协议详细使用方法之前,我们先来复习一下robots.txt的使用要点:
        1、不管是顶级域名还是二级域名都只能有一个robots.txt协议文件,存放在网站虚拟的根目录,例如zhuzhouren.com.cn/robots.txt,则zhuzhouren.com.cn/robots.txt文件对bbs.zhuzhouren.com.cn是没有效果的。
        2、不同网站的传输协议,都可以有一个robots.txt文件,例如http://zhuzhouren.com.cnhttps://zhuzhouren.com.cn都可以有一个robots.txt协议文件。
        3、不同的网站端口也可以分别有一个robots.txt协议文件,例如http://zhuzhouren.com.cnhttp://zhuzhouren.com.cn:8080都可以有一个robots.txt协议文件。
        4、robots.txt协议文件必须全部为小写,不能是大写,也不能部分是大写部分是小写,例如RoBotS.TXT或ROBOTS.TXT。
        5、网站robots.txt协议文件,例user-agent、allow、allow、disallow、crawl-delay、sitemap这些协议字母可不区分大小写。
        6、网站robots.txt协议文件中包含的URL网址大小写要区分清楚,robots.txt协议中allow和disallow的URL地址不能包括网站协议、网站域名、网站端口路径。
        7、网站robots.txt协议书写的方法,例如disallow: http://zhuzhouren.com.cn/abc.htm这个就写错了,正确写法为disallow: /abc.htm。
        8、网站robots.txt协议sitemap的路径必须包含是HTTP或HTTPS完整URL路径。
        9、robots.txt协议不是用于提交网站死链,提交网站死链正确的方法要到搜索引擎站长平台进行提交网站URL死链。
        10、robots.txt协议文件主要的作用是禁止搜索引擎不抓取收录网站某个目录,如果网站没有robots.txt协议文件,则意味着网站完全向搜索引擎开放。
        11、robots.txt协议文件只对遵守robots.txt协议的搜索引擎有效。
        12、如果你的网站不想让搜索引擎收录,可使用noindex标签,但百度搜索引擎并不支持。
        13、crawl-delay意思是告诉搜索引擎抓取要延迟,这种标签百度和谷歌搜索引擎不支持。
        14、robots.txt协议中的符号#,主要作用是注释,#号后面的内容则直接被忽略。
        搜索引擎robots.txt协议通配符*:
        通配符*可代表任意长度,代表任意字符,例如:User-agent: *,*后面的字符我们是看不到的。
        例如你在robots.txt协议中写了disallow: /cat/,则表示网站所有URL链接中只有包含/cat/,搜索引擎就不会收录。
        比如:
        http://zhuzhouren.com.cn/cat/abc.htm
        http://zhuzhouren.com.cn/cat/abc.html
        http://zhuzhouren.com.cn/cat/abc/
        这几个URL链接搜索引擎就不会收录,因为链接中触发了robots.txt协议中禁止收录带有/cat/字符的命令。
        但这些也是有特殊的情况,那就是在allow和disallow后没有进行任何的赋值。
        例如:
        User-agent: *
        Disallow: /cyberworld/map/ # This is an infinite virtual URL space
        # Cybermapper 表示搜索引擎可访问网站任何页面。
        User-agent: cybermapper
        Disallow:
        合并多个User-Agent
        如果你不想让多个搜索引擎的蜘蛛去爬取收录你的网站,耗费你网站服务器的资源,则你可以使用disallow屏蔽所有搜索引擎,或者也可以使用user-agent一次性屏蔽。
        User-agent: bad-bot-a
        User-agent: bad-bot-b
        Disallow: /
        这样的写法当你有多个user-agent的情况,虽然这个较复杂,但是使用的情况都是一样的。
        User-agent: bad-bot-a
        User-agent: bad-bot-b
        Disallow: /XXX
        #以下省略200行,这样的操作方法可让robots.txt协议变得简洁明了。
        如果我们想让搜索引擎访问访问我们已制定的好的sitemap,该如处理呢?
        可以在搜索引擎站长平台提交sitemap地图,也可以在robots.txt协议文件中写入网站sitemap地图URL路径,如果不想让搜索引擎访问sitemap地图,也可在网站robots.txt协议文件中进行屏蔽,具体的操作方法如下:
        User-agent: *
        Disallow: /sitemap.xml
        User-agent: baiduspider
        Disallow: /sitemap.xml

        Sitemap: http://zhuzhouren.com.cn/sitemap.xml
        Sitemap: http://zhuzhouren.com.cn/sitemap-all-lang.xml
        这样百度就能识别网站XML地图了。
        Sitemap文件太大要如何办?:
        搜索引擎对网站sitemap地图文件的大小和条数也是有所限制的,大小限制在10MB,条数限制在五万条,如果超过这两个数值,可把sitemap地图文件分割成多个sitemap文件,除开使用这种分拆的方法外,还可以使用sitemap索引文件。
        sitemap地图文件太大,传输就会无效率,或者效率低下,为了解决这个传输效率的问题,可采用GZIP压缩,但要注意的是也必须遵守sitemap地图文件小于10MB,数量也不能大于五万条。
        以上就是大兵给大家介绍的robots.txt协议文件的高级应用,你学会了robots.txt协议的高级应用的写法了吗?如果你还有其他robots.txt协议设置小技巧欢迎留言告诉大兵哟~


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
生活圈制作
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

SEO论坛是由SEO培训网株洲优商网络(zhuzhouren.com.cn)创立,是一个以免费分享SEO技术教程和SEO网站优化技术学习交流为目的SEO论坛,欢迎热爱搜索引擎优化站长加入交流,SEO技术交流群(497177874)
© 2001-2013 株洲优商网络SEO培训网 湘ICP备14002577号-2 Powered by Discuz!X3.2Template by 株洲优商网络    
快速回复 返回顶部 返回列表