有很多的垃圾蜘蛛爬网站,总是让服务器的CPU到100%,服务不可用。很多蜘蛛是没用的,需要进行屏蔽。本文汇总了目前互联网上常见的垃圾蜘蛛,并添加说明。最后附Nginx屏蔽垃圾蜘蛛的方法。
一、MJ12Bot
MJ12Bot是英国著名SEO公司Majestic的网络爬虫,其抓取网页给需要做SEO的人用,不会给网站带来流量。
二、AhrefsBot
AhrefsBot是知名SEO公司Ahrefs的网页爬虫。其同样抓取网页给SEO专业人士用,不会给网站带来流量。
三、SEMrushBot
SEMrushBot也是SEO、营销公司的网络爬虫。
四、DotBot
DotBot是Moz.com的网页爬虫,抓取数据用来支持Moz tools等工具。
五、MauiBot
MauiBot不同于其他爬虫,这个爬虫连网站都没有,UA只显示一个邮箱:”MauiBot(crawler.feedback+wc gm ail.com)“。神奇的是这个看起来是个人爬虫,竟然遵循robots协议,算得上垃圾爬虫的一股清流。
六、MegaIndex.ru
一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。
七、BLEXBot
webmeup下面的蜘蛛,作用是收集网站上面的链接,对网站来说并没有用处。遵循robots协议。
八、SemrushBot。
semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处。
九、DotBot。
moz旗下的,作用是提供seo服务的蜘蛛,但是对网站并没有什么用处。
十、crawler。
常见python的爬虫命名。
十一、serpstatbot。
Serpstat 公司的爬虫,用於收集网页資料和搜索引擎优化分析。
十二、hubspot。
HubSpot 是一家提供营销和销售软件的公司,其爬虫用于抓取网页內容以提供相关服务。
十三、python。
Python 是一程程式语言,这里提到的 “python” 指使用者编写的使用 Python 程式語言的爬虫。
十四、Bytespider。
Bytespider 是一个网络爬虫,用于获取和分析网页内容。
十五、Go-http-client。
Go-http-client 是使用 Go 程式語言编写的 HTTP 客戶端,这里指可能由此客戶端发起的爬取請求。
十六、Java。
Java 是一种程式語言,这里提到的 “Java” 可能指使用者编写的使用 Java 程式语言的爬虫。
十七、PhantomJS。
PhantomJS 是一个基于WebKit 的无介面浏览器,可用于模拟浏览器行为和爬取网页資料。
十八、Ezooms。
Ezooms 是一家网络情报公司,其爬虫用于收集关于网站和关键词的資料。
十九、EdisterBot。
EdisterBot 是一个网络爬虫,用於索引和分析网页。
Nginx 直接屏蔽垃圾蜘蛛方法:
将下面规则放进网站配置文件的 server{}或http{}块中:
#屏蔽垃圾蜘蛛
if ($http_user_agent ~* (AhrefsBot|AhrefsSiteAudit|SemrushBot|MJ12bot|PetalBot|DotBot|YandexBot|MegaIndex|spbot|crawler|Bytespider|Barkrowler|Scrapy|python|curl|urllib|PhantomJS)) { return 403; }
本站所有文章,如无特殊说明或标注,均为本站原创发布。
任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
