如何分析Robots.txt配置

这期内容当中小编将会给大家带来有关如何分析Robots.txt 配置,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

成都创新互联公司坚持“要么做到,要么别承诺”的工作理念,服务领域包括:成都做网站、网站建设、外贸营销网站建设、企业官网、英文网站、手机端网站、网站推广等服务,满足客户于互联网时代的南浔网站设计、移动媒体设计的需求,帮助企业找到有效的互联网解决方案。努力成为您成熟可靠的网络建设合作伙伴!

Robots.txt 是一个爬虫规范协议,看名称就知道它是一个 txt 的文本。放在网站的根目录下。robots.txt 文件由一条或多条规则组成。每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径。它主要的作用就是来告诉爬虫,我这个网站,你哪些你能看,哪些你不能看的一个协议。

如何分析Robots.txt 配置

Robots.txt 有一个规范,或者说是规则,也或者说是语法。

  • robots.txt 必须是 ASCII 或 UTF-8 文本文件。不允许包含其他字符。

  • robots.txt 文件由一条或多条规则组成。

  • 每条规则由多条指令(说明)组成,每条指令各占一行。

  • 每条规则包含这些信息:此规则的适用对象(即用户代理);代理可以访问的目录或文件,和/或;代理无法访问的目录或文件。

  • 系统会按照从上到下的顺序处理这些规则,而且一个用户代理只能匹配 1 个规则集(即与相应用户代理匹配的首条最具体的规则)。

  • 系统的默认假设是:用户代理可以抓取所有未被 Disallow: 规则禁止访问的网页或目录。

  • 规则区分大小写。

  • 一个网站只能有 1 个 robots.txt 文件。

Robots.txt 中主要有 4 个关键词。放在行首,用英文“:”分割内容部分或指令体。

  • User-agent 网页抓取工具的名称

  • Disallow 不应抓取的目录或网页

  • Allow 应抓取的目录或网页

  • Sitemap 网站的站点地图的位置

下面,我举几个例子,方便大家认识。

如何分析Robots.txt 配置

上面的配置将分别禁止它们对网站内容的爬取。一个爬虫的 Disallow 可以有多个,比如百度网盘中的配置。

如何分析Robots.txt 配置  
上图就是百度网盘 Robots.txt 配置示例。如果要禁止全部的爬虫,则配置下面的内容即可。  

如何分析Robots.txt 配置

Robots.txt 也支持模糊匹配,比如下面的配置。禁止爬取以 .xls 文件结尾的内容。

如何分析Robots.txt 配置

注意,如果不配置,或者配置的内容,如下所说,则代表全部允许。

如何分析Robots.txt 配置

除了 Robots.txt 之外,我们也可以通过 Nginx 的其他技术手段来禁止爬出的抓取。但是相对来说,配置 Robots.txt 的效率最高!

上述就是小编为大家分享的如何分析Robots.txt 配置了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注创新互联行业资讯频道。


文章题目:如何分析Robots.txt配置
转载来源:http://myzitong.com/article/ppedpd.html