有很多的垃圾蜘蛛爬网站,总是让服务器的CPU到100%,服务不可用。很多蜘蛛是没用的,需要进行屏蔽。本文汇总了目前互联网上常见的垃圾蜘蛛,并添加说明。最后附Nginx屏蔽垃圾蜘蛛的方法。

一、MJ12Bot

MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。

二、AhrefsBot

AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。

三、SEMrushBot

SEMrushBot也是SEO、营销公司的网络爬虫。

四、DotBot

DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。

五、MauiBot

MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。

六、MegaIndex.ru

一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

七、BLEXBot

webmeup下面的蜘蛛,作用是收集网站上面的链接,对网站来说并没有用处。遵循robots协议。

八、SemrushBot。

semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处。

九、DotBot。

moz旗下的,作用是提供seo服务的蜘蛛,但是对网站并没有什么用处。

十、crawler。

常见python的爬虫命名。

十一、serpstatbot。

Serpstat 公司的爬虫,用於收集网页資料和搜索引擎优化分析。

十二、hubspot。

HubSpot 是一家提供营销和销售软件的公司,其爬虫用于抓取网页內容以提供相关服务。

十三、python。

Python 是一程程式语言,这里提到的 “python” 指使用者编写的使用 Python 程式語言的爬虫。

十四、Bytespider。

Bytespider 是一个网络爬虫,用于获取和分析网页内容。

十五、Go-http-client。

Go-http-client 是使用 Go 程式語言编写的 HTTP 客戶端,这里指可能由此客戶端发起的爬取請求。

十六、Java。

Java 是一种程式語言,这里提到的 “Java” 可能指使用者编写的使用 Java 程式语言的爬虫。

十七、PhantomJS。

PhantomJS 是一个基于WebKit 的无介面浏览器,可用于模拟浏览器行为和爬取网页資料。

十八、Ezooms。

Ezooms 是一家网络情报公司,其爬虫用于收集关于网站和关键词的資料。

十九、EdisterBot。

EdisterBot 是一个网络爬虫,用於索引和分析网页。

 

Nginx 直接屏蔽垃圾蜘蛛方法:

将下面规则放进网站配置文件的 server{}或http{}块中:

#屏蔽垃圾蜘蛛 
if ($http_user_agent ~* (AhrefsBot|AhrefsSiteAudit|SemrushBot|MJ12bot|PetalBot|DotBot|YandexBot|MegaIndex|spbot|crawler|Bytespider|Barkrowler|Scrapy|python|curl|urllib|PhantomJS)) { return 403; }
声明:
本站所有文章,如无特殊说明或标注,均为本站原创发布。
任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。