在上一篇文章中,一起君讲了WordPress的基本设置,但漏了一个非常重要的设置:那就是robots.txt文件的设置。
说起robots.txt,估计大多数新手都不知道这个这个什么东东。robots.txt是用来承载robots协议的?那什么是robots协议呢?官方、标准一点的说法:robots协议的学名为“网络爬虫排除标准”;往通俗的说,就是一个允许搜索引擎抓取哪些内容的协议。所以搜索引擎在抓取网站内容的时候,都要先抓取这个文件,看看哪些内容允许抓取,哪些内容不允许抓取,所以呢,这个文件也是放在网站的根目录下。
很多WordPress新手都不太在意这个robots协议怎样写。其实,这是非常重要的。如果一不小心,及极度有可能会被抓取了隐私内容(例如登录后台、密码等)或者重复抓取内容,增大了空间、服务器的压力。下面一起君将结合实际,谈谈这个该怎么写。
一般情况下,写法如下:
User-agent:
Disallow/Allow:
User-agent指的是爬虫类型,也就是针对哪家的搜索引擎,比较常见的有Baiduspider、googlebot、360Spider、Sogou Spider等。如果是针对的所有搜索引擎的,就是*,如果针对特定的,就填入指定名称。
Disallow/Allow,这个是禁止抓取或者允许抓取哪些内容。下面,我们结合实例来分析一下。
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /*/trackback
Disallow: /feed
Disallow: /*/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /attachment/
Disallow: /xmlrpc.php
Disallow: /wp-
Allow: /wp-content/uploads
User-agent: Baidu-YunGuanCe-ScanBot
Disallow: /
Sitemap: https://www.yiqijiang.com/sitemap.xml
详解
1、User-agent:*。这个一般都是默认全部,如果要针对某一个搜索引擎,先填完其中一个,在针对所有。
Disallow: /wp-admin/——这个是禁止抓取后台登录;
Disallow: /wp-content/——这个也是禁止抓取后台程序文件;
Disallow: /wp-includes/——这个也是禁止抓取后台程序文件;
Disallow: /*/comment-page-*——这个是不抓取评论分页页面;
Disallow: /*?replytocom=*——这个也是不抓取评论分页页面;
Disallow: /category/*/page/——这个是不抓取分类目录分页页面;
Disallow: /tag/*/page/——这个是不抓取标签分页页面;
Disallow: /*/trackback——这个是不抓取评论分trackeback的内容,这个内容里面或许有不少是垃圾信息;
Disallow: /feed——不抓取feed,feed和搜录没有什么关系,不用抓取,省点服务器。
Disallow: /*/feed——同上。
Disallow: /?s=*——不抓取动态页面。一般情况下,都是已经设定了固定链接,那么这个固定链接对应的动态页面就没有必要再被抓取了。除非用用了最”朴素“的链接方式——?P123。如果用了这种,建议趁还没开始,尽快改掉。
Disallow: /*/?s=*\——同上。
Disallow: /attachment/——禁止抓取WordPress附件。大多数情况下,附件文件对于收录都毫无意义。
Disallow: /xmlrpc.php——这个文件主要是用来远程发布文件的,也算是一个后台程序文件
Disallow: /wp-
Allow: /wp-content/uploads
上面两个是一组的,禁止抓取以wp-开头的文件夹,但允许抓取/wp-content/uploads下文件。
User-agent: Baidu-YunGuanCe-ScanBot
Disallow: /
这一个的写法有点特别。特意针对百度云观测的,禁止其抓取所有内容。为什么要特意针对?因为,如果不禁止了这个爬虫,这个很有可能会占用了整个网站的CPU资源,导致连网站到打不开。。
Sitemap: https://www.yiqijiang.com/sitemap.xml
最后这个是sitemap的位置,可以让搜索引擎更好的了解的网站的结构,抓取网站的内容。
暂无评论