Google’s webmaster tools – Ophalen als Googlebot

banner-ophalen-als-googlebot

De beste manier om een web pagina te zien als Googlebot is door gebruik te maken van fetch als Googlebot. Deze functie is handig om pagina's te crawlen en om malware te detecteren.

In Google’s hulpprogramma voor webmasters (hierna: GWT) kan u een pagina op uw web site bezoeken zoals Google deze bezoekt. Met andere woorden, bezoek uw web pagina als Googlebot met de functie “Ophalen als Googlebot” onder de categorie “Gezondheid”. Deze functie is al een aantal jaar oud en werd gelanceerd in oktober 2009 te samen met malware details. En daar is ook de grootste waarde van de functie: Kijken of Google een andere code krijgt gepresenteerd omdat de web pagina gehackt is. Daarom zullen we kijken waarom een web pagina malware bevat specifiek voor zoekmachines. Maar het kan ook heel handig zijn voor site-fouten. Dit zijn fouten op de web site of server waardoor Googlebot de web site in zijn geheel niet bezoekt. Maar, allereerst, de functie “Ophalen als Googlebot”.

Ophalen als Googlebot

In de functie ophalen als Googlebot of fetch as Googlebot kan de webmaster (de beheerder van een web site) de eerste 100 kb van een web pagina op de web site bekijken als Googlebot. Hoewel deze functie alleen de eerste zichtbare html code laat zien kan Googlebot meer dan 100 kb crawlen alleen is dit niet zichtbaar in deze functie in GWT. Ook is er een maximum voor het aantal URL’s die u kan ophalen, namelijk 500 per week.

screenshot-ophalen-als-googlebot

Het resultaat

De status van ophalen kan verschillende waardes hebben zoals “Succes” wanneer de web pagina succesvol is gecrawld (opgehaald met een HTTP 200 okay) of “Niet gevonden” wanneer de web pagina niet gevonden is op de web server (opgehaald met een 404 not found). Als er op de waardes wordt geklikt dan komt er een nieuwe pagina waar de HTTP headers en de eerste 100 kb wordt weergegeven.

De HTTP header informatie die Googlebot ziet en de eerste 100 KB HTML van de web pagina.

De HTTP header is de reactie die de web server geeft wanneer Googlebot de web pagina bezoekt. In de screenshot hierboven is het 200 OK. Dit betekend dat de web pagina gevonden is op de web server. Maar het kan ook een 404 Not Found zijn of zoals hieronder verder wordt uitgelegd een 301 permanent re-direct. Het kan bijvoorbeeld voorkomen dat een andere HTTP header wordt gegeven aan Googlebot omdat de web pagina ge-hackt is of omdat Googlebot wordt geblokkeerd. In het geval dat de crawler geblokkeerd wordt door de robots.txt wordt het bericht “geweigerd door robots.txt” weergegeven. Ook wordt de html code weergegeven zoals Googlebot die ziet. Deze code kan worden vergeleken met de code zoals die op de web pagina staat en als deze verschillen dan er iets aan de hand zijn zoals een ge-hackte web pagina.

Indienen bij index

Nadat de web pagina succesvol (HTTP 200) is opgehaald door Googlebot kan de web pagina worden toegevoegd aan de index. De index is de database van alle web pagina’s die door de crawler, zoals Googlebot, zijn gevonden en verstuurd naar de index. Deze index bestaat niet alleen web pagina’s maar ook uit bestanden zoals afbeeldingen en pdf’s. Op die manier kunnen zoekmachines relatief snel zoekresultaten weergeven. Hoewel Google Search een volautomatische zoekmachine is kan het handig zijn om deze functie toch te gebruiken. In tegen stelling tot een aantal jaar geleden zijn zoekmachines tegenwoordig goed instaat om bijna alle web pagina’s op een web site te crawlen en indexeren. Daarom is het, over het algemeen, niet nodig om de functie “Indienen bij index” of “Submit to index” te gebruiken. Overigens biedt Google een soortgelijke functie ook aan op www.google.com/addurl.html. Echter het wordt aangeraden om als webmaster deze via GWT in te dienen en niet via de “Add URL” pagina. In het kort, vaak is de web pagina al in de index en is het niet nodig om deze handmatig via GWT toe te voegen.

Er zijn twee opties in de functie indienen bij index:

  • URL Hierbij wordt alleen de web pagina die opgehaald is toegevoegd aan de index. Het maximum is 500 URL’s per week.
  • URL en alle gekoppelde pagina’s. Hierbij wordt de web pagina die is opgehaald toegevoegd tesamen met alle web pagina’s waar deze web pagina naar linkt. Het maximum is 10 URL’s per maand.

Screenshot indienen bij index: Er zijn twee opties: Alleen de URL of de URL met alle gelinkte URL's

Deze functie kan gebruikt worden als er een nieuwe belangrijke web pagina wordt toegevoegd aan de web site of als een bepaalde web pagina behoorlijk is veranderd sinds de laatste crawl. Echter om er voor te zorgen dat Googlebot uw web pagina zo snel mogelijk bezoekt en toevoegt aan de index is het belangrijker om op het internet een duidelijk signaal te geven. Bijvoorbeeld sociale media, zoals Twitter of Google+, kunnen worden gebruikt om aan zoekmachines het signaal te geven dat er nieuwe content op de web pagina is door een link toe te voegen aan het bericht. Immers zoekmachines bezoeken sociale media en als ze een link tegen komen dan volgen ze deze om deze te crawlen en te indexeren. Op die manier wordt het zelfde bereikt (het crawlen van de web pagina).

Tot slot, net zoals de algemene Add URL pagina garandeert Google niet dat als de web pagina is ingediend dat de web pagina ook daadwerkelijk wordt toegevoegd aan de index.

Malware alleen voor Googlebot

Het ophalen als Googlebot is met name handig om malware te detecteren die alleen zichtbaar is voor Googlebot. Malware is een afkorting voor malicious software. Malware is een verzamelnaam voor allerlei software die een negatief effect hebben op de software van de eigenaar. Denk bijvoorbeeld aan computer virussen, maar ook onbedoelde ad-ware (software die reclame weergeeft). Ook op web pagina’s kan malware voor komen. Malware is altijd illegaal maar helaas is vaak niet te achterhalen wie of welke persoon deze actie heeft uitgevoerd. Ook voor het hoe moet vaak grondig onderzoek worden gedaan. Helaas is elke software, of het nu Windows is of WordPress, nooit helemaal veilig. Echter soms is deze malware specifiek bedoeld voor Googlebot of een andere zoekmachine. Dit wil zeggen, dat de malware alleen wordt gepresenteerd als een zoekmachine, zoals Googlebot, de web pagina bezoekt.

Cloaking

Een actie waarbij zoekmachines andere content zien dan normale gebruikers heet cloaking. Dit kan door te kijken naar de user-agent en als de user-agent Googlebot of Bingbot heeft dan wordt er andere content of extra content gepresenteerd. Een user-agent is een stukje tekst over de software die wordt gebruikt en deze wordt verstuurd aan de web server of web site. Zo kan het bijvoorbeeld voorkomen dat als u met een mobiele telefoon naar een populaire web site surft u direct naar de mobiele pagina wordt ge-re-direct. Dit wordt gedaan op basis van de user-agent die de browser van de mobiele telefoon door geeft aan de web site. Nu kan dit ook voor bots. Een meer geavanceerde manier is door middel van de IP-adres. Elke internet aansluiting heeft een uniek adres die bestaat uit nummers. IP versie 4 (IPv4) bestaat alleen uit cijfers maar IP versie 6 (IPv6) bestaat ook uit letters en het grote voordeel is is dat IPv4 slechts 32 bit is terwijl IPv6 128 bit is waardoor er meer mogelijkheden zijn (hier zal ik verder niet op ingaan). Net zoals een internet aansluiting thuis of op het bedrijf hebben bots ook unieke IP-adressen. Deze IP-adressen kunnen worden gebruikt om alleen voor deze IP-adressen een andere versie (de ge-hackte versie) van een web pagina te presenteren.

Met ander woorden, cloaking is een actie waarbij normale gebruikers een andere web pagina   gepresenteerd krijgen dan zoekmachines of er wordt extra content toegevoegd aan de web pagina. Dit wordt gedaan door specifiek te kijken naar unieke eigenschappen van zoekmachines zoals IP-adressen of user-agents.

Maar waarom alleen voor bots?

Er zijn allerlei redenen waarom iemand malware wil plaatsen specifiek voor zoekmachines. Allereerst heeft de webmaster (de beheerder van de web site) vaak niet door dat er malware op de web site is. Immers de web site ziet er voor de normale bezoeker en de webmaster normaal uit doordat er gebruik wordt gemaakt van cloaking. Laten we drie motivaties bekijken waarom er malware die alleen zichtbaar is voor zoekmachines bekijken:

  • Het plaatsen van links naar externe web pagina’s. Vaak wordt hierbij slechts een klein stukje content toegevoegd aan de web pagina. De rede waarom dit gebeurd is omdat het aantal links die verwijzen naar een web pagina een factor is om hoger in de zoekresultaten te komen. Bijvoorbeeld een web pagina met tien links is naar alle waarschijnlijkheid beter dan een web pagina met slechts één link. Met andere woorden, een externe link (een link buiten de domeinnaam) naar een web pagina wordt door zoekmachines gezien als een aanbeveling. Ook kan één link meer betekenen dan een andere link. Neem, bijvoorbeeld, een web pagina met tien externe links die naar een andere web pagina linkt. Deze web pagina geeft meer waarde door dan een link van een web pagina die slechts één externe link heeft.
  • Het plaatsen van content om de web pagina hoger te ranken voor bepaalde sleutelwoorden. Dit is vaak een hack die meerdere stappen kent. Allereerst wordt er content toegevoegd om een web pagina te ranken in zoekmachines voor bepaalde sleutelwoorden of keywords waarna de gehele web pagina wordt verwisseld voor een andere.
  • Het plaatsen van re-direct alleen voor zoekmachines. Als een web pagina wordt verhuist naar een nieuwe locatie dan is het ‘best practice’ om een 301 permanente re-direct te gebruiken (bekijk mijn vorige artikel over het verhuizen naar een nieuw domeinnaam om een beter idee te krijgen over 301 permanent re-direct). Met een 301 permanente re-direct wordt alle waarde die een zoekmachine toekent aan een web pagina overgeheveld naar de nieuwe locatie. Bijvoorbeeld alle externe links worden toegekend aan de nieuwe locatie maar ook, in beginsel, alle sleutelwoorden waar de web pagina op gezocht kon worden. Op deze manier proberen hackers hun eigen web site hoger te ranken of voor bepaalde zoekwoorden te ranken in de zoekresultaten. Echter vaak wordt er ook gebruik gemaakt van een ge-hackte web site die uiteindelijk naar een web site van de hacker linkt. Met andere woorden, vaak is dit een web van allerlei re-directs en links en het betekend niet dat de web pagina waarnaar er wordt ge-re-direct de hacker is (deze web pagina kan ook gehackt zijn).

Zoals al in het laatste punt is gehint, wordt er vaak gebruik gemaakt van verschillende manieren om uiteindelijk voordeel te krijgen in de zoekresultaten. Daarnaast zijn er nog veel meer verschillende manieren en motivaties waarom een ge-hackte web site alleen zichtbaar is voor zoekmachines.

Site-fouten alleen voor Googlebot

Naast malware kunnen site-fouten er ook voor zorgen dat een web site anders reageert tegen Googlebot dan tegen een normale bezoeker. Zeker wanneer er veel nieuwe content wordt toegevoegd aan een web site kan het zijn dat de beveiliging van een web server Googlebot blokkeert. Vaak is dit een onderdeel van een anti-DDoS software. Een DDoS of Distributed Denial of Service attack is een aanval op de web server. Hierbij wordt worden enorme hoeveelheden data aangevraagd bij web server (bijvoorbeeld web pagina’s) in zeer korte tijd. Omdat de aantallen zo groot zijn kan de server het aantal aanvragen niet verwerken en gaat daardoor down (vaak met een 5xx error of de gehele connectie wordt verbroken). Om dit probleem het hoeft te bieden kan een web server als een cliënt, zoals Googlebot, die veel en vaak bestanden aanvraagt een andere reactie geven dan een normale gebruiker. Deze reactie is vaak een 5xx error.

Een specifiek voor zoekmachine error is een 5xx error op de robots.txt. Dit is een bestand speciaal voor robots zoals Googlebot of Bingbot. Dit bestand wordt gebruikt om web pagina’s of gedeelten van een web site te blokkeren voor bots. Als de web server een andere reactie geeft dan een 404 not found of een 200 okay dan stopt Googlebot met het crawlen van de web site. Met andere woorden, als de robots.txt een 503 service unavailable geeft dan wordt dit door Google gezien als een blokkade van de hele web site. In tegen stelling tot een 5xx error als Googlebot een 404 not found krijgt dan betekend dit dat de gehele web site toegankelijk is. Nu is een robots.txt niet verplicht en, daarom, is een 404 niet gevonden pagina prima, echter sommige web server reageren niet goed als er geen robots.txt aanwezig is. Bijvoorbeeld ze geven een 503 error. Daarom wordt het aangeraden om toch een robots.txt te hebben.

Tot slot,

Omdat in de GWT “ophalen als Googlebot” de headers worden gepresenteerd is deze functie ideaal om te kijken of de server specifieke site-errors geeft aan Google. Ook wordt de HTML code weergeven. Hierdoor is het makkelijker om te kijken of er malware op de web pagina is specifiek voor zoekmachines. Naast malware kan het ook voorkomen dat Googlebot helemaal geen content krijgt, bijvoorbeeld als een web pagina geheel uit javascript bestaat of vanwege rijke media zoals Flash. Met andere woorden, het is een goede manier om te kijken hoe Google’s zoekmachine de web pagina ziet.

Er is nog veel meer te vertellen over Googlebot en hoe deze werken. Maar de informatie die hier staat is genoeg om te begrijpen wat deze functie in GWT doet en betekent. Daarnaast staat vragen natuurlijk altijd vrij en ik kijk uit naar de reacties hieronder! Verder heb ook vaak de woorden indexeren en crawlen gebruikt. Er is een groot verschil tussen beide omdat ze verschillende acties zijn van een zoekmachine. Lees mijn artikel “Crawlen is geen indexeren” om meer achtergrond te krijgen.

Bekijk ook de andere artikelen van de tab “Gezondheid” in GWT:

Site-fouten  URL-fouten  Crawl statistieken  Geblokkeerde URL’s  Indexeringstatus Malware

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>