网络爬虫行为规范——robots.txt

## 简介 robots.txt 文件规定了搜索引擎抓取工具可以访问您网站上的哪些网址。此文件主要用于避免您的网站隐私路径被搜索引擎收录，譬如登录入口、私密文件等。 **注意**： - **robots.txt**必须放在系统启动根目录才会生效。 - 是否遵循这些命令由抓取工具自行决定。Googlebot 和其他正规的网页抓取工具都会遵循 robots.txt 文件中的命令，但其他抓取工具未必如此。 **使用 robots.txt 的原因：** - 保护网站安全 - 节省流量 - 禁止搜索引擎收录部分页面 - 引导蜘蛛爬网站地图 ## 使用语法 ### 搜索引擎约束用User-agent：来定义允许的搜索引擎。其中： - *表示所有 - Baiduspider表示百度蜘蛛 - Googlebot表示谷歌蜘蛛。 #### **示例**： `User-agent: *` :表示允许所有搜索引擎的爬虫访问 `User-agent: Baiduspider` ：表示只允许百度爬虫访问 ### 内容限制约束 - `Disallow: ` 表示禁止访问 - `Allow: ` 表示允许访问。 **注意**：默认允许爬虫访问，所以只需要关心Disallow的编写就行 #### **示例**： ##### **限制爬虫爬取网站上的某一目录内的文件**： `Disallow: /admin/ ` ：表示禁止爬虫访问admin目录下的内容 ##### **限制爬虫爬取网站上的某一目录下的某类文件**： `Disallow: /admin/*.js ` ：表示禁止访问admin目录下的js文件 `Disallow: /admin/*.png ` ：表示禁止访问admin目录下的png文件 ##### **限制爬虫爬取网站上的某一类型文件**： `Disallow: .jpg$ ` ：禁止爬虫抓取网站上的所有的jpg文件 `Disallow: .jpeg$ ` ：禁止爬虫爬取网站上的所有jpeg文件 ### **站点导引** `Sitemap:` 指引爬虫依照站点地图爬取全站 #### 示例 `Sitemap: https://gotarget.top/sitemap.html` `Sitemap: https://gotarget.top/sitemap.xml` ## 特别注意事项 - 在写robots.txt文件时语法一定要用对，`User-agent`、`Disallow`、`Allow`、`Sitemap`**这些词都必须是第一个字母大写，后面的字母小写，而且在:（冒号）后面必须带一个英文字符下的空格。** - 网站上线之前切记写robots.txt文件禁止蜘蛛访问网站，如果不会写就先了解清楚写法之后再写，以免给网站收录带来不必要的麻烦。 - robots.txt文件生效时间在几天至一个月之间，站长自身无法控制。但是，站长可以在百度统计中查看网站robots.txt文件是否生效。 ## 补充一些大站的robots.txt文件鉴赏：阿里云：https://www.aliyun.com/robots.txt 腾讯云：https://cloud.tencent.com/robots.txt 知乎：https://zhuanlan.zhihu.com/robots.txt

闲余笔记本==>服务器

常用shell指令