什么是爬虫中的Robots协议-创新互联

创新互联www.cdcxhl.cn八线动态BGP香港云服务器提供商,新人活动买多久送多久,划算不套路!

创新互联公司服务项目包括善右网站建设、善右网站制作、善右网页制作以及善右网络营销策划等。多年来,我们专注于互联网行业,利用自身积累的技术优势、行业经验、深度合作伙伴关系等,向广大中小型企业、政府机构等提供互联网行业的解决方案,善右网站推广取得了明显的社会效益与经济效益。目前,我们服务的客户以成都为中心已经辐射到善右省份的部分城市,未来相信会继续扩大服务区域并继续获得客户的支持与信任!

什么是爬虫中的Robots协议?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

爬虫的盗亦有道Robots协议

爬虫的规定

Robots协议

网站开发者对于网络爬虫的规范的公告,你可以不遵守可能存在法律风险,但尽量去遵守。

Robots协议:在网页的根目录+robots.txt

Robots协议的基本语法:

#注释,*代表所有,/代表根目录
User-agent:* #user-agent代表来源
Allow:/ #代表运行爬取的内容
Disallow:/ #代表不可爬取的目录,如果是/后面没有写内容,便是其对应的访问者不可爬取所有内容

并不是所有网站都有Robots协议。

如果一个网站不提供Robots协议,是说明这个网站对应所有爬虫没有限制。

类人行为可以不参考robots协议,比如我们写的小程序访问量很少,内容也少但是内容不能用于商业用途。

总的来说请准守Robots协议。

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注创新互联-成都网站建设公司行业资讯频道,感谢您对创新互联的支持。


分享标题:什么是爬虫中的Robots协议-创新互联
网页地址:http://myzitong.com/article/ceichp.html