|
转自:http://www.seovista.com/post/google-crawl-caching-proxy.html
Google优化蜘蛛抓取网页流程,节约带宽和流量
Matt Cutts 在Crawl caching proxy一文中指出,Google在BigDaddy更新之后,对网页抓取的流程进行了优化,引入了"网页抓取缓存",从而为被抓取的网站节约带宽和流量.
往常,GG的若干种服务采用不同的蜘蛛,各蜘蛛对网页的抓取(crawl),是各自独立,不相干的事情.而现在采用了新办法,就是同一网页被任何一个GG的蜘蛛索引后,就放入到缓存数据库,下一个蜘蛛得到索引同一个网页的指令后,先去检查这个缓冲库,如果库中已经存在,即已被索引过,那么,后来的这个蜘蛛就不会再重新去目标网站抓取.
值得注意的是,这种抓取模式仍然遵守robots.txt协议,如果你的网站允许普通蜘蛛索引,而拒绝新闻蜘蛛或者Adsense蜘蛛索引的话,虽然已经有了这张网页的缓存,后两个蜘蛛仍然不会索引走这个缓存的.
Just as always, participating in AdSense or being in our blogsearch doesn’t get you any “extra” crawling (or ranking) in our web index whatsoever. You don’t get any extra representation in our index, you don’t get crawled/indexed any faster by our webcrawl, and you don’t get any boost in ranking.
这一段话澄清了一个长久以来的疑问:就是做Google的广告Adsense发布者,会不会被GG另眼相看,从而获得额外的索引,获得更好的排名,因为蜘蛛的索引是独立的,因为明确地告诉了大家,发布AdSense并不会有助于多收录网页,也不会增加Google排名。
附已知的GoogleBot(蜘蛛,Spider或网页漫游器):
1,负责普通网页搜索的新旧版2个Bot:
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
2,负责Google AdSense的Bot;
3,负责Blog搜索的Blogsearch Bot;
5,新闻搜索Bot; |
|