当前位置：王柯团队 > 网络营销 >

2024年什么是robotstxt？（robots.txt文件的规范写法）

2024-02-26 王柯团队

Robots.txt文件的作用

一般来说出于安全的考虑，在网站seo优化时写入robots.txt文件，实际上就是告诉搜索引擎蜘蛛，网站上哪些内容允许抓取，哪些内容不允许抓取，这样做可以提高搜索引擎的抓取效率，增加搜索引擎对网站的友好度。

杭州精准营销

robots.txt文件的规范写法

文件中的记录通过空行分开，以CR、CR/NL、or NL作为结束符。robots.txt文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow和Allow行，详细情况如下：

User-agent:

用于描述搜索引擎蜘蛛的名字，在”Robots.txt”文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在”Robots.txt”文件中，”User-agent:*”这样的记录只能有一条。

Disallow:

用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被Robot访问到。

例如，”Disallow:/help”是指禁止搜索引擎蜘蛛抓取/help.html和/help/index.html；而”Disallow:/help/”则允许搜索引擎蜘蛛抓取/help.html，不能抓取/help/index.html。

Allow:

用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。

例如，”Allow:/hibaidu”允许搜索引擎蜘蛛抓取/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

注意：Disallow与Allow行的顺序是有意义的，搜索引擎蜘蛛会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

使用”*”和”$”：

Baiduspider支持使用通配符”*”和”$”来模糊匹配url。“$”匹配行结束符。“*”匹配0或多个任意字符。