1.依据空间流量实际情况,就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用,先保证正常浏览器优先。
2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。
3.WWW服务器层面做限制。例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。
4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的,让robots.txt明示公布于众。后续文章会详细介绍该方法,包括如果发现蜘蛛,从网站的日志里统计蜘蛛,发现未知的蜘蛛。针对不同的蜘蛛,屏蔽蜘蛛、禁止爬虫怎么样更高效,更快捷。并且通过实例来介绍。

声明:
本站所有文章,如无特殊说明或标注,均为本站原创发布。
任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。
如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。