Google Webmaster Tools: Gezondheid – Crawl statistieken

Banner Crawl stats

Crawl statistieken in Google's webmaster tools is een mooie functie en de data is alleen verkrijgbaar daar. Maar de functie is erg beperkt.

In de crawl statistieken is te zien wat de activiteit is van Google op uw web site. Hierbij is het niet alleen Googlebot maar ook andere robots van Google. De statistieken geven ook weer wanneer AdSense (dit zijn Google’s banners op web sites), Google news, Google scholar en nog veel meer. Het geeft niet aan of Google uw web sites heeft gecrawld voor Google Search specifiek, het is een populatie van alle Google spiders. De data die wordt weergegeven is slechts voor de afgelopen 90 dagen. Ook wordt de data in een grafiek weergegeven en daardoor is het moeilijk om exacte cijfers te krijgen. Crawl statistieken geven daarom meer een indicatie over wanneer, hoeveel en hoe snel Google de web site heeft gecrawld. In het kort, het onderdeel crawl stats is erg beperkt en eigenlijk niet handig.

Screenshot Crawl statistieken GWT

Crawl statistieken en de drie grafieken in GWT

De crawl statistieken zijn slechts drie grafieken over 90 dagen, de per dag gecrawlde pagina’s, de per dag gedownloade kilobytes (bij Google’s bot) en de tijd voor het downloaden van een pagina. De grafieken zijn cumulatieve gegevens van alle web pagina’s op uw web site. Ook wordt weergegeven wat de hoogste waarde was, de gemiddelde en de laagste waarde. Echter meer interessant is te kijken naar het niveau van de crawling trend. Dat wil zeggen, wanneer de crawling op een lagere trend is of op een hogere.

Waar het handig voor kan zijn is om te kijken of Google een probleem heeft gehad, hierbij is een duidelijke daling te zien. Ook is dit onderdeel handig om een idee te krijgen over hoe snel uw web site laadt. Daarom zal kijken naar meest waarschijnlijke oorzaken waarom de grafiek kan veranderen en waarom de snelheid van belang is voor Google. Allereerst een mogelijke uitleg geven over waarom Google niet alleen Googlebot (van Google Search) maar ook andere bots laat mee tellen in deze crawl stats.

Meerdere bots van Google?

Google heeft meerdere bots of crawlers die het internet afzoeken door van link naar link te gaan. Op die manier indexeerd Google het internet. Daarom worden deze crawlers ook wel spiders genoemd omdat ze het web van links na gaan. Voor verschillende producten gebruikt Google verschillende bots. Bijvoorbeeld:

  • Google Search, de zoekmachines, heet Googlebot.
  • Google AdSense, de advertenties van Google, heet Mediapartners-Google of (Mediapartners).
  • Google News, de zoekmachine specifiek voor nieuws, heer Googlebot-News (Googlebot).

Er zijn nog meer bots van Google bekijk een aantal crawlers hier (Google heeft meer bots dan deze lijst zoals Feedfetcher die ik hier niet zal behandelen). Google gebruikt een caching proxy om zo efficiënt mogelijk het internet te crawlen. In het kort, betekend dit dat de verschillende bots niet telkens de web pagina bezoeken omdat een andere bot de web pagina al heeft bezocht en al aan de index heeft toegevoegd. Hierdoor kan Google een grotere crawl efficiency bereiken.

Wat is caching proxy?

Om het beter uit te leggen maak ik gebruik van een voorbeeld. Als een gebruiker naar een web pagina gaat door middel van een internet browser dan kan (dit is zeker niet altijd het geval) een Internet Service Provider (hierna: ISP), zoals KPN of Ziggo, een kopie van de pagina geven in plaats van de daadwerkelijke pagina op de web server van de web site. Bijvoorbeeld als persoon A een populaire web pagina bezoekt dan wordt dat verzoek gedaan aan de ISP die vervolgens een verzoek aan de web server doet waar de betreffende web pagina staat. Wanneer de web server hierop antwoord door middel van het geven van de web pagina aan de ISP dan stuurt de ISP deze web pagina weer door aan persoon A die de web pagina op dat moment laadt. Proxy cachingNu vraagt persoon B de zelfde web pagina een paar seconden later aan bij de zelfde ISP. In plaats van dat de ISP naar de web server gaat geeft de ISP de web pagina weer die de ISP heeft opgeslagen voor persoon A. Hierdoor krijgt persoon B de gevraagde web pagina sneller en spaart de ISP bandbreedte. Maar de web server spaart bandbreedte, immers er wordt slecht één maal een web pagina aangevraagd en niet tweemaal. Dit heet, in het kort, proxy caching, waar de proxy de ISP is.

Hoe gebruikt Google proxy caching?

Google gebruikt al zeer lang proxy caching en voor zover ik weet spreekt Google hier niet regelmatig over. De laatste keer was in 2006 waarbij Google de software van de crawlers updaten (onder codenaam Bigdaddy). Daarom kan het zijn, en zeer waarschijnlijk, dat wat ik hier schrijf niet geheel up-to-date is. Echter de principe is het zelfde.  De verschillende bots kunnen direct naar de web pagina en deze crawlen of de bots kunnen de benodigde informatie ophalen bij een proxy de web index (of web database) van Google. Op deze manier kunnen de verschillende producten gebruik maken van elkaar. Doordat ze gebruik maken van elkaar kunnen ze bandbreedte en server ruimte sparen en daardoor efficiënter opereren. Voor de web site en de web server geldt ook dat bandbreedte en server ruimte wordt gespaard, immers de web pagina wordt minder opgevraagd dan wanneer er geen gebruikt wordt gemaakt van proxy caching.

Het gedeelte wat in crawl statistieken wordt weergegeven is, naar alle waarschijnlijkheid, de daadwerkelijke verkeer naar de web site vanuit de bots. Dus het verkeer van de proxy naar de web site. Met andere woorden, de daadwerkelijke verkeer vanuit Google’s web index of web database naar de web site. Helaas is het een cumulatief cijfer en kan er niet per pagina de crawl stats worden opgevraagd.

Veranderingen in de grafiek

Allereerst is het normaal om meerdere pieken te zien in de grafieken. Daarnaast omdat er geen exacte cijfers worden gegeven kan er alleen kijken naar trends en waarom een trend op een hoger niveau of op een lager niveau ligt. De bots van Google bezoeken meerdere web pagina’s de ene dag en de volgende dag bezoeken ze iets minder enzovoort. Soms wordt er gesproken over “crawl budget”. Een korte uitleg is dat de bots een bepaalde bandbreedte en server ruimte hebben per dag voor het crawlen van een web site. Hoe deze crawl budget wordt bepaald is niet geheel duidelijk, vaak wordt er verwezen naar PageRank of autoriteit. Een zeer beknopte uitleg is: PageRank is een programma ontworpen door Google waarbij aantal links bepalend zijn voor hoe hoog een bepaalde web pagina staats in de zoekresultaten. Echter links van populaire web pagina’s (een web pagina waar veel naar wordt gelinkt) zijn belangrijker dan andere links. Tegenwoordig is PageRank veel meer dan alleen het aantal links naar een web pagina en Google gebruikt zeer veel andere factoren om een web pagina te ranken in haar zoekresultaten.

Over het algemeen groeit PageRank en daarbij de crawl budget geleidelijk en webmaster zien een geleidelijke groei in de grafiek. Echter het kan voorkomen dat een bepaalde artikel opeens zeer populair wordt. Hierdoor kan het voorkomen dat opeens de trend een niveau hoger is. Over het algemeen dit niet (vaak) voor en als dit voor komt dan is dit meer geleidelijk en veel minder hevig dan wanneer de trend omlaag gaat.Vaak gaat dit ook gepaard met een toename in het aantal reacties op de web site. Vaak gaat dit ook gepaard met een toename in het aantal reacties op de web site. Daarom een, meer waarschijnlijke, verklaring waarom de grafiek op een nieuwe hogere trend ligt is omdat er nieuwe web pagina’s worden toegevoegd of omdat de content op de web pagina’s (zoals reacties op een blog artikel) toeneemd. Bijvoorbeeld als een web site een aantal maanden geen nieuwe content heeft toegevoegd dan is de de crawl stats op een laag niveau en wanneer er veel nieuwe content wordt toegevoegd dan wordt het niveau omhoog geschroefd. Dus de crawl stats gaan omhoog en blijven op een hogere niveau wanneer er nieuwe content wordt toegevoegd, maar een toename van de PageRank of, meer algemeen, de autoriteit van web site kan ook een toename in de trend veroorzaken.

Een daling van de trend kan in tegenstelling tot een verhogen van het niveau snel gaat. Waarschijnlijk is Google beleeft met het omhoog gaan van de “crawl budget” om de web site niet te overladen met bezoeken. Als er site errors zijn dan zal Google de web site niet crawlen. Site errors zijn fouten die Googlebot tegen komt waardoor Googlebot de web site niet kan bezoeken. Zeker als dit meerdere dagen duurt dan zal de grafiek op nul zijn. Echter als een web pagina via meerdere wegen kan worden bezocht dan kan dit betekenen dat de “crawl budget” eerder verbruikt is. Bijvoorbeeld als de home pagina van een web site bezocht kan worden met of zonder index.html dan kan dat betekenen dat de bot zowel index.html als de root bezoekt. Op het moment dat Google het door heeft dat de pagina’s het zelfde zijn (Google is zeer goed in het vergelijken van web pagina’s) kan het zijn dat Google deze duplicaten laat vallen en alleen één versie van de web pagina crawld. Een daling ten op zichtte van het aantal pagina’s kan ook een gevolg zijn van schrale (thin) content (web pagina’s die weinig echte tekst of andere content hebben). In dat geval kan de bot beter tijd besteden aan een web pagina die wel goede content heeft. Tot slot, en dit is de belangrijkste, als het laden van een pagina zeer lang duurt dan kan Googlebot terughoudend zijn waardoor de trend op een lager niveau kan komen.

Tot slot,

Zoals al gehint hierboven is het onderdeel crawl stats zeer beperkt. Echter achter de crawl statistieken liggen interessante software programma’s achter. Hier is Google niet altijd even open over en daarom heb ik hier beschreven over wat er over het algemeen gedacht wordt met betrekking tot deze onderwerpen.

Bekijk ook de andere artikelen van de tab “Gezondheid” in GWT:

Site-fouten  URL-fouten  Geblokkeerde URL’s  Ophalen als Googlebot  Indexeringstatus Malware

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>