使用CloudFlare后如何才能不影响搜索引擎蜘蛛爬虫
今天,给大家再次详细讲解一下,在使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫对站点的抓取,因为这是很多首次使用 CloudFlare 的站长们容易忽略和触犯的问题,并不是 CloudFlare 不友好,而是 CloudFlare 的防火墙(WAF)实在是太给力。目前,我发现到的 CloudFlare 影响搜索引擎爬虫的只有两个地方,理论上只要这两个地方配置好了,任何搜索引擎爬虫都是
今天,给大家再次详细讲解一下,在使用 CloudFlare 后如何才能不影响搜索引擎蜘蛛爬虫对站点的抓取,因为这是很多首次使用 CloudFlare 的站长们容易忽略和触犯的问题,并不是 CloudFlare 不友好,而是 CloudFlare 的防火墙(WAF)实在是太给力。
目前,我发现到的 CloudFlare 影响搜索引擎爬虫的只有两个地方,理论上只要这两个地方配置好了,任何搜索引擎爬虫都是可以畅通无阻的来你的站点抓取的,并且每次来访蜘蛛爬虫都可以在 CloudFlare 后台【安全性】——【事件】里看到记录的,如下图所示:
在【安全性】——【事件】里明月还能看到谷歌、必应、神马搜索、搜狗、360 等等国内外的主流搜索引擎爬虫,唯一要做的就是在站点接入 CloudFlare 并所有地区 DNS 解析已经生效后,下面两点后台配置即可:
1、关闭 SSL/TLS 里的【随机加密】
在 CloudFlare 后台的【SSL/TLS】里有一个【随机加密】的开关,其主要目的是让浏览器知道您的站点通过加密连接提供,从而让它们从 HTTP/2 的性能改进中受益。浏览器将继续在地址栏中显示http,而不是https。这个【随机加密】目前国内主流搜索引擎都不支持,尤其是百度爬虫,所以一定要关闭这个开关,否则就会造成百度爬虫抓取网页失败:
国外的谷歌、必应都是支持这个【随机加密】的,如果不想让百度爬虫抓取你的网页也可以利用这个来限制百度爬虫。总之,就是灵活运用了,但一般明月是建议大家关闭的。
2、WAF 里创建放行爬虫规则(必须)
这个是很多新手站长们使用 CloudFlare 容易忽略的地方,CloudFlare 默认 WAF 理论上是不会拦截爬虫的,但国内部分爬虫对 robots.txt 遵守不完全,加上 IP 不固定等等因素就会造成被 CloudFlare 的默认 WAF 误拦截,所以明月强烈建议大家要在 CloudFlare 的 WAF 里单独创建一个放行爬虫的规则来以防万一,在 CloudFlare 后台【安全性】——【WAF】里创建规则,具体规则配置如下所示:
这里的有区别于【CloudFlare 如何让合法搜索引擎蜘蛛爬虫正常抓取】一文里第一个字段变更为已知自动程序了,无论是合法机器人爬虫还是已知自动程序其实指的都是搜索引擎爬虫,只是称谓变更而已,这里使用的意思是来访爬虫是已知的爬虫程序,注意后面的值就是勾选(意思是判断为是)。然后是And下一个条件威胁分数小于或者等于 60 分,结合到一起的意思就是来访爬虫是已知合法自动爬虫并且威胁分数小于等于 60 分的请求,这里的威胁分数是 CloudFlare 大数据里的评分,只要是合法搜索引擎爬虫威胁分数都不会高于 60 分的。当然你也可以设定更高,但基于安全考虑,明月的经验是 60 分足够了。
满足上述两个条件后就是下面要采取的措施了,一般我们都是选择跳过的,具体跳过什么如下图所示:
这里大家可以根据自己的安全需要灵活勾选,上图的仅仅是适合明月自己站点的,仅供参考,理论上全部勾选也是可以的,大家根据自己需要勾选就是了。不推荐无脑照抄,因为站点情况是不一样的,只能是根据需要来选择。
至此,你的 CloudFlare 已经对所有合法的搜索引擎爬虫完全开放了,还具备了对恶意、垃圾爬虫的自动拦截屏蔽。并且还可以根据自己站点的实际需求,灵活的向爬虫、UA、IP 区域等等设定开放条件。总之,CloudFlare 强大的就是其自由灵活的按需配置,唯一的瑕疵就是免费版的 CloudFlare 只能设置 5 条 WAF 规则,不过,对于一般的站点来说是绰绰有余。
此外我这里准备了详细的Python资料,除了为你提供一条清晰的学习路径,我甄选了最实用的学习资源以及庞大的实例库。短时间的学习,你就能够很好地掌握爬虫这个技能,获取你想得到的数据。
01 专为0基础设置,小白也能轻松学会
我们把Python的所有知识点,都穿插在了漫画里面。
在Python小课中,你可以通过漫画的方式学到知识点,难懂的专业知识瞬间变得有趣易懂。
你就像漫画的主人公一样,穿越在剧情中,通关过坎,不知不觉完成知识的学习。
02 无需自己下载安装包,提供详细安装教程
03 规划详细学习路线,提供学习视频
04 提供实战资料,更好巩固知识
05 提供面试资料以及副业资料,便于更好就业
这份完整版的Python全套学习资料已经上传CSDN,朋友们如果需要也可以扫描下方csdn官方二维码或者点击主页和文章下方的微信卡片获取领取方式,【保证100%免费】
开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!
更多推荐
所有评论(0)