网络爬虫行为规范—

简介

robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。此文件主要用于避免您的网站隐私路径被搜索引擎收录，譬如登录入口、私密文件等。

注意：

使用 robots.txt 的原因：

用User-agent：来定义允许的搜索引擎。

其中：

User-agent: * :表示允许所有搜索引擎的爬虫访问

User-agent: Baiduspider ：表示只允许百度爬虫访问

注意：默认允许爬虫访问，所以只需要关心Disallow的编写就行

Disallow: /admin/ ：表示禁止爬虫访问admin目录下的内容

Disallow: /admin/*.js ：表示禁止访问admin目录下的js文件

Disallow: /admin/*.png ：表示禁止访问admin目录下的png文件

Disallow: .jpg$ ：禁止爬虫抓取网站上的所有的jpg文件

Disallow: .jpeg$ ：禁止爬虫爬取网站上的所有jpeg文件

Sitemap: 指引爬虫依照站点地图爬取全站

Sitemap: https://gotarget.top/sitemap.html

Sitemap: https://gotarget.top/sitemap.xml

在写robots.txt文件时语法一定要用对，User-agent、Disallow、Allow、Sitemap这些词都必须是第一个字母大写，后面的字母小写，而且在:（冒号）后面必须带一个英文字符下的空格。
网站上线之前切记写robots.txt文件禁止蜘蛛访问网站，如果不会写就先了解清楚写法之后再写，以免给网站收录带来不必要的麻烦。
robots.txt文件生效时间在几天至一个月之间，站长自身无法控制。但是，站长可以在百度统计中查看网站robots.txt文件是否生效。

一些大站的robots.txt文件鉴赏：