你知道搜索引擎蜘蛛给网站带来的危害有哪些吗?

搜索引擎爬虫对网站的负面影响
1.网站有限的带宽资源,而爬虫的量过多,导致正常用户访问缓慢。
例如,原本虚拟主机主机的连接数受限,带宽资源也是有限。这种情况搜索引擎爬虫受影响呈现更明显。 2.搜索引擎爬虫过频密,抓取扫描很多无效页面。甚至抓页面抓到服务器报502、500 、504 等服务器内部错误了,蜘蛛爬虫还在不停使劲抓取。
不论是实际生产监控,还是网友反映,部分搜索引擎爬虫可用几个词来形容“坏蜘蛛”“恶爬虫”。很多讨论搜索引擎相关的文章,已经将它们列过排行榜。有兴趣的可更多了解它。
 3.与网站主题不相关的搜索引擎爬虫消耗资源。
例 如,典型的例子搜索引擎“一淘网蜘蛛(EtaoSpider)为一淘网抓取工具。”被各大电子商务购物网站屏蔽。拒绝一淘网抓取其商品信息及用户产生的 点评内容。被禁止的原因首先应该是它们之间没有合作互利的关系,还有就是EtaoSpider爬虫是一个抓取最疯狂的蜘蛛。统计发现EtaoSpider 爬虫的一天爬行量比“百度蜘蛛:Baiduspider”“360蜘蛛:360Spider”“SOSO蜘蛛:Sosospider”等主流蜘蛛爬虫多几 倍,并且是远远的多。重点是EtaoSpider被抓取只会消耗你的网站资源,它不会给你带来访问量,或者其它对你有利用的。

4.一些搜索引擎开发程序员,它们写的爬虫程序在测试爬行。 5.robots.txt文件不是万能!
肯定有很多人认为,在robots.txt设置屏蔽搜索引擎爬虫即可,或者允许某些特定的搜索引擎爬虫,能达到你预想效果。
不错正规的搜索引擎会遵守规则,且不会及时生效。实际中某些蜘蛛往往不是这样的,先扫描抓取你的页面,无视你的robots.txt。也可能它抓取后不一定留用;或者它只是统计信息,收集互联网行业趋势分析统计。 6.还有一种它们不是蜘蛛,但其有蜘蛛的特性。例如采集软件,采集程序,网络扫描e-mail地址的工具,各式各样的SEO分析统计工具,千奇百怪的网站漏洞扫描工具,等等,只有你想不到的工具,没有它做不到的…
所以,搜索引擎蜘蛛并不是爬得越多越好,我们站长需要了解蜘蛛的类型,合理的屏蔽一些不需要的蜘蛛。下节,我们将为大家讲解如何有效指引搜索引擎蜘蛛爬取网站内容。
●本文来源互联网及网友投稿,如有侵权请及时联系本站进行删除。
●转载原创文章请保留地址及版权信息,否则侵权必究。
●分享目的仅供大家学习和交流,请不要用于商业用途。
●该资源版权归原著作者所有,请于下载后24小时内删除。
●如有链接无法下载、失效或广告,请联系右侧点击QQ咨询处理。
●本站资源售价只是赞助,收取费用仅维持本站的日常运营所需。
●如遇到加密压缩包,默认解压密码为"fdeer.com",如遇到无法解压的请联系管理员。

飞鹿日志 » 你知道搜索引擎蜘蛛给网站带来的危害有哪些吗?

发表评论