网络爬虫行为规范——robots.txt

网络爬虫行为规范——robots.txt

Scroll Down

简介

robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。 此文件主要用于避免您的网站隐私路径被搜索引擎收录,譬如登录入口、私密文件等。

注意

  • robots.txt必须放在系统启动根目录才会生效。

  • 是否遵循这些命令由抓取工具自行决定。Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令,但其他抓取工具未必如此。

使用 robots.txt 的原因:

  • 保护网站安全

  • 节省流量

  • 禁止搜索引擎收录部分页面

  • 引导蜘蛛爬网站地图

使用语法

搜索引擎约束

用User-agent:来定义允许的搜索引擎。

其中:

  • *表示所有
  • Baiduspider表示百度蜘蛛
  • Googlebot表示谷歌蜘蛛。

示例

User-agent: * :表示允许所有搜索引擎的爬虫访问

User-agent: Baiduspider :表示只允许百度爬虫访问

内容限制约束

  • Disallow: 表示禁止访问

  • Allow: 表示允许访问。

注意:默认允许爬虫访问,所以只需要关心Disallow的编写就行

示例

限制爬虫爬取网站上的某一目录内的文件

Disallow: /admin/ :表示禁止爬虫访问admin目录下的内容

限制爬虫爬取网站上的某一目录下的某类文件

Disallow: /admin/*.js :表示禁止访问admin目录下的js文件

Disallow: /admin/*.png :表示禁止访问admin目录下的png文件

限制爬虫爬取网站上的某一类型文件

Disallow: .jpg$ :禁止爬虫抓取网站上的所有的jpg文件

Disallow: .jpeg$ :禁止爬虫爬取网站上的所有jpeg文件

站点导引

Sitemap: 指引爬虫依照站点地图爬取全站

示例

Sitemap: https://gotarget.top/sitemap.html

Sitemap: https://gotarget.top/sitemap.xml

特别注意事项

  • 在写robots.txt文件时语法一定要用对,User-agentDisallowAllowSitemap这些词都必须是第一个字母大写,后面的字母小写,而且在:(冒号)后面必须带一个英文字符下的空格。

  • 网站上线之前切记写robots.txt文件禁止蜘蛛访问网站,如果不会写就先了解清楚写法之后再写,以免给网站收录带来不必要的麻烦。

  • robots.txt文件生效时间在几天至一个月之间,站长自身无法控制。但是,站长可以在百度统计中查看网站robots.txt文件是否生效。

补充

一些大站的robots.txt文件鉴赏:

阿里云:https://www.aliyun.com/robots.txt

腾讯云:https://cloud.tencent.com/robots.txt

知乎 :https://zhuanlan.zhihu.com/robots.txt