有效指引搜索引擎蜘蛛爬取方法

1.依据空间流量实际情况,就保留几个常用的屏蔽掉其它蜘蛛以节省流量。以暂时空间流量还足够使用,先保证正常浏览器优先。
2.从服务器防火墙iptable直接屏蔽蜘蛛IP段、详细的IP。这是最直接、有效的屏蔽方法。
3.WWW服务器层面做限制。例如Nginx,Squid,Lighttpd,直接通过“http_user_agent”屏蔽搜索引擎爬虫。
4.最后robots.txt文件做限制。搜索引擎国际规则还是要遵循规则的,让robots.txt明示公布于众。后续文章会详细介绍该方法,包括如果发现蜘蛛,从网站的日志里统计蜘蛛,发现未知的蜘蛛。针对不同的蜘蛛,屏蔽蜘蛛、禁止爬虫怎么样更高效,更快捷。并且通过实例来介绍。

●本文来源互联网及网友投稿,如有侵权请及时联系本站进行删除。
●转载原创文章请保留地址及版权信息,否则侵权必究。
●分享目的仅供大家学习和交流,请不要用于商业用途。
●该资源版权归原著作者所有,请于下载后24小时内删除。
●如有链接无法下载、失效或广告,请联系右侧点击QQ咨询处理。
●本站资源售价只是赞助,收取费用仅维持本站的日常运营所需。
●如遇到加密压缩包,默认解压密码为"fdeer.com",如遇到无法解压的请联系管理员。

飞鹿日志 » 有效指引搜索引擎蜘蛛爬取方法

发表回复