Java基础、中级、高级、架构面试资料

详解 Robots.txt 配置教程

业余杂谈 herman 5505浏览
公告:“业余草”微信公众号提供免费CSDN下载服务(只下Java资源),关注业余草微信公众号,添加作者微信:xttblog2,发送下载链接帮助你免费下载!
本博客日IP超过2000,PV 3000 左右,急需赞助商。
极客时间所有课程通过我的二维码购买后返现24元微信红包,请加博主新的微信号:xttblog2,之前的微信号好友位已满,备注:返现
受密码保护的文章请关注“业余草”公众号,回复关键字“0”获得密码
所有面试题(java、前端、数据库、springboot等)一网打尽,请关注文末小程序
视频教程免费领
腾讯云】1核2G5M轻量应用服务器50元首年,高性价比,助您轻松上云

基本上,所有公开你能访问到的网站都有 Robots.txt。可能只是你没有注意到而已,比如淘宝的:https://www.taobao.com/robots.txt、百度网盘的:https://pan.baidu.com/robots.txt。

看过我朋友圈的网友都知道,我这两天正在和爬虫做斗争。最近两天,我司的网站上新增了很多乱七八糟的爬虫。比如:BLEXBot、AhrefsBot、MJ12bot、hubspot、opensiteexplorer、leiki、webmeup 等。

这些爬虫都不是搜索引擎的,所以爬我们的网站,对我们的用处不大。今天借此机会,我就教大家用 Robots.txt 来禁止它们爬取网站内容。

Robots.txt 是一个爬虫规范协议,看名称就知道它是一个 txt 的文本。放在网站的根目录下。robots.txt 文件由一条或多条规则组成。每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径。它主要的作用就是来告诉爬虫,我这个网站,你哪些你能看,哪些你不能看的一个协议。

Robots.txt 有一个规范,或者说是规则,也或者说是语法。

  • robots.txt 必须是 ASCII 或 UTF-8 文本文件。不允许包含其他字符。
  • robots.txt 文件由一条或多条规则组成。
  • 每条规则由多条指令(说明)组成,每条指令各占一行。
  • 每条规则包含这些信息:此规则的适用对象(即用户代理);代理可以访问的目录或文件,和/或;代理无法访问的目录或文件。
  • 系统会按照从上到下的顺序处理这些规则,而且一个用户代理只能匹配 1 个规则集(即与相应用户代理匹配的首条最具体的规则)。
  • 系统的默认假设是:用户代理可以抓取所有未被 Disallow: 规则禁止访问的网页或目录。
  • 规则区分大小写。
  • 一个网站只能有 1 个 robots.txt 文件。

Robots.txt 中主要有 4 个关键词。放在行首,用英文“:”分割内容部分或指令体。

  • User-agent 网页抓取工具的名称
  • Disallow 不应抓取的目录或网页
  • Allow 应抓取的目录或网页
  • Sitemap 网站的站点地图的位置

下面,我举几个例子,方便大家认识。

User-agent: AhrefsBot
Disallow: /
User-agent: dotbot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DeuSu
Disallow: /
User-agent: grapeshot
Disallow: /

上面的配置将分别禁止它们对网站内容的爬取。一个爬虫的 Disallow 可以有多个,比如百度网盘中的配置。

百度网盘 Robots.txt 配置示例

如果要禁止全部的爬虫,则配置下面的内容即可。

User-agent: *
Disallow: /

Robots.txt 也支持模糊匹配,比如下面的配置。禁止爬取以 .xls 文件结尾的内容。

User-agent: Googlebot
Disallow: /*.xls$

注意,如果不配置,或者配置的内容,如下所说,则代表全部允许。

User-agent: *
Disallow:

最后,除了 Robots.txt 之外,我们也可以通过 Nginx 的其他技术手段来禁止爬出的抓取。但是相对来说,配置 Robots.txt 的效率最高!

业余草公众号

最后,欢迎关注我的个人微信公众号:业余草(yyucao)!可加作者微信号:xttblog2。备注:“1”,添加博主微信拉你进微信群。备注错误不会同意好友申请。再次感谢您的关注!后续有精彩内容会第一时间发给您!原创文章投稿请发送至532009913@qq.com邮箱。商务合作也可添加作者微信进行联系!

本文原文出处:业余草: » 详解 Robots.txt 配置教程