1. 企司令SEO首页
  2. SEO教程

robots协议是用来干什么的?

robots协议是一种与搜索引擎爬取网站的协议。一般robots.txt是搜索引擎爬虫程序访问网站的时候查看的第一个文件内容,因为robots文件里面放了那些内容搜索引擎爬虫可以抓取,那些不可以抓取。

robots协议
robots协议

robots协议是一种与搜索引擎爬取网站的协议。一般robots.txt是搜索引擎爬虫程序访问网站的时候查看的第一个文件内容,因为robots文件里面放了那些内容搜索引擎爬虫可以抓取,哪些不可以抓取。但是需要注意的是robots协议并不是所有的搜索引擎爬虫都会遵循,甚至很多个人爬虫从来不会看robots协议。

robots协议该怎么写?

一般来说只要记住这四种写法即可。

  1. User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
  2. Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
  3. Allow: /tmp 这里定义是允许爬寻tmp的整个目录
  4. Sitemap: 网站地图 告诉爬虫这个页面是网站地图

其他目前仅需了解:

Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片

网站为什么设置robots?

  1. 避免不必要的内容被暴露到网站上去,比如你的总管理后台,被暴露到网络上去可能会导致你被黑客攻击
  2. 网站集权,搜索引擎可能会抓取一些没用的界面,比如联系我们,单独的图片界面,单独的评论打分页等等。
  3. 网址仅供内部团队使用,不希望被收录。
  4. 帮助搜索引擎快速发现sitemap(你所有打包好的希望收录的网站地址),节省爬虫发现新地址的时间。

总结一下:robots协议使用得当会加速搜索引擎对网站的收录,但是不要乱用,比如你使用Disallow: /,可能就会告诉搜索引擎,网站下面的所有内容都不能被收录。robots.txt文件都是放在网站的根目录,且对字母有大小写限制,文件名必须全部一模一样都是小写字母,请注意下。

发布者:企司令,转载请注明出处:https://www.m40.cn/blog/robotsxieyishiyonglaiganshenmede/

发表评论

电子邮件地址不会被公开。 必填项已用*标注

联系我们

15258683385

在线咨询:点击这里给我发消息

邮件:364603780@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code