怎样设置WordPress网站的robots.txt?WordPress robots.txt设置教程

在上一篇文章中,一起君讲了WordPress的基本设置,但漏了一个非常重要的设置:那就是robots.txt文件的设置。

说起robots.txt,估计大多数新手都不知道这个这个什么东东。robots.txt是用来承载robots协议的?那什么是robots协议呢?官方、标准一点的说法:robots协议的学名为“网络爬虫排除标准”;往通俗的说,就是一个允许搜索引擎抓取哪些内容的协议。所以搜索引擎在抓取网站内容的时候,都要先抓取这个文件,看看哪些内容允许抓取,哪些内容不允许抓取,所以呢,这个文件也是放在网站的根目录下。

很多WordPress新手都不太在意这个robots协议怎样写。其实,这是非常重要的。如果一不小心,及极度有可能会被抓取了隐私内容(例如登录后台、密码等)或者重复抓取内容,增大了空间、服务器的压力。下面一起君将结合实际,谈谈这个该怎么写。

一般情况下,写法如下:

User-agent:

Disallow/Allow:

User-agent指的是爬虫类型,也就是针对哪家的搜索引擎,比较常见的有Baiduspider、googlebot、360Spider、Sogou Spider等。如果是针对的所有搜索引擎的,就是*,如果针对特定的,就填入指定名称。

Disallow/Allow,这个是禁止抓取或者允许抓取哪些内容。下面,我们结合实例来分析一下。

 

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-content/

Disallow: /wp-includes/

Disallow: /*/comment-page-*

Disallow: /*?replytocom=*

Disallow: /category/*/page/

Disallow: /tag/*/page/

Disallow: /*/trackback

Disallow: /feed

Disallow: /*/feed

Disallow: /?s=*

Disallow: /*/?s=*\

Disallow: /attachment/

Disallow: /xmlrpc.php

Disallow: /wp-

Allow: /wp-content/uploads

User-agent: Baidu-YunGuanCe-ScanBot

Disallow: /

Sitemap: https://www.yiqijiang.com/sitemap.xml

 

详解

1、User-agent:*。这个一般都是默认全部,如果要针对某一个搜索引擎,先填完其中一个,在针对所有。

Disallow: /wp-admin/——这个是禁止抓取后台登录;

Disallow: /wp-content/——这个也是禁止抓取后台程序文件;

Disallow: /wp-includes/——这个也是禁止抓取后台程序文件;

Disallow: /*/comment-page-*——这个是不抓取评论分页页面;

Disallow: /*?replytocom=*——这个也是不抓取评论分页页面;

Disallow: /category/*/page/——这个是不抓取分类目录分页页面;

Disallow: /tag/*/page/——这个是不抓取标签分页页面;

Disallow: /*/trackback——这个是不抓取评论分trackeback的内容,这个内容里面或许有不少是垃圾信息;

Disallow: /feed——不抓取feed,feed和搜录没有什么关系,不用抓取,省点服务器。

Disallow: /*/feed——同上。

Disallow: /?s=*——不抓取动态页面。一般情况下,都是已经设定了固定链接,那么这个固定链接对应的动态页面就没有必要再被抓取了。除非用用了最”朴素“的链接方式——?P123。如果用了这种,建议趁还没开始,尽快改掉。

Disallow: /*/?s=*\——同上。

Disallow: /attachment/——禁止抓取WordPress附件。大多数情况下,附件文件对于收录都毫无意义。

Disallow: /xmlrpc.php——这个文件主要是用来远程发布文件的,也算是一个后台程序文件

Disallow: /wp-

Allow: /wp-content/uploads

上面两个是一组的,禁止抓取以wp-开头的文件夹,但允许抓取/wp-content/uploads下文件。

User-agent: Baidu-YunGuanCe-ScanBot

Disallow: /

这一个的写法有点特别。特意针对百度云观测的,禁止其抓取所有内容。为什么要特意针对?因为,如果不禁止了这个爬虫,这个很有可能会占用了整个网站的CPU资源,导致连网站到打不开。。

Sitemap: https://www.yiqijiang.com/sitemap.xml

最后这个是sitemap的位置,可以让搜索引擎更好的了解的网站的结构,抓取网站的内容。

声明:本文为原创,作者为 一起君,转载时请保留本声明及附带文章链接:https://www.yiqijiang.com/how-to-setting-wordpress-website-robots.html

暂无评论

发表评论

邮箱地址不会被公开。 必填项已用*标注

arrow grin ! ? cool roll eek evil razz mrgreen smile oops lol mad twisted wink idea cry shock neutral sad ???