Google Webmaster Tools: Gezondheid – Crawlfouten en siteerrors

Banner Google's hulprogramma voor webmasters - crawlfouten en siteerrors

Crawlfouten die de hele web site raken zijn siteerrors. In Google's webmaster tools worden deze op een mooie manier gerapporteerd.

In mijn vorige arikellen heb ik gekeken naar de eerste tab in Google’s hulpprogramma voor webmasters (hierna: GWT), namelijk configuratie. In dit artikel zal ik kijken naar de het eerste onderdeel, crawlfouten, in de tab gezondheid. Crawlfouten kunnen zich voordoen als de crawler problemen heeft op de web site. Een crawler is een computer programma die web pagina’s bezoekt en deze door geeft aan een database. De database heet index. Deze index bevat daarom web pagina’s die door crawlers aan de index zijn toegevoegd. Als een crawler een link ontdekt op de web pagina dan wordt deze gevolgd en wordt de volgende web pagina gecrawld en doorgegeven aan de index. Op deze (beknopte) manier wordt het internet geindexeerd door Google. Google noemt haar crawler ook wel Googlebot. Andere namen voor crawlers zijn spiders (omdat ze het web van links volgen), robots of bots. Nu kan het zijn dat er een link wordt gevolgd die niet naar een web pagina leidt. De web pagina wordt niet geladen en dat zijn zeer beknopt de crawlfouten. Er zijn ook specifieke crawlfouten voor nieuws sites. Echter deze zal ik niet behandelen omdat dit alleen geldt voor nieuws site en voor Google News.

Crawlfouten zijn normaal en het betekend niet dat u een slechte web site heeft als u crawlfouten ziet. In tegen stelling, crawlfouten komen altijd voor en paniek is nergens voor nodig. Echter het is goed om te bekijken waar de crawlfouten vandaan komen en, zo nodig, een andere server reactie te geven.

Screenshot van Google Webmaster Tools - Crawlfouten

We kunnen de crawlfouten onderverdelen in sitefouten en URL-fouten. Sitefouten zijn crawlerrors waarbij Googlebot de gehele domein niet kon bezoeken. Met andere woorden, de hele web site geeft een error. URL-fouten zijn crawlfouten specifiek voor een bepaalde URL. Dat wil zeggen voor de crawler kan de web site goed bezoeken maar enkele pagina’s niet. Hier zal ik alleen kijken naar “siteerrors” en “URL-errors” zal ik in mijn volgende artikel bekijken.

Sitefouten hoe komt dat en waarom rapporteert Google deze?

Bij sitefouten kan Googlebot uw hele web site niet bezoeken en daardoor kan Google uw web site niet verder indexeren. Sitefouten of site-errors kunnen worden onder verdeeld in drie verschillende sub-categorieën:

  • DNS errors
  • Servererrors
  • Robots.txt problemen

DNS errors

DNS staat voor Domain Name System en er zorgt ervoor dat de domeinnaam daadwerkelijk bereikt kan worden. Server hebben zelf geen domeinnaam maar een IP-adres, net zoals elke internet aansluiting heeft. Een IP-adres (internet protocol) is een kenmerk (ik ga hier niet verder in op het verschil tussen versie 4 IPv4 en versie 6 IPv6) die aangeeft waar de server is en worden door vijf organisaties uitgeven. Deze organisaties zijn op regio verdeeld. In Europa is de RIR (regional Internet registry) RIPE. De DNS is een stukje tekst bestand op een DNS server die aangeeft waar welke domeinnaam is. Op dit bestand staat vermeldt dat een bepaalde domeinnaam een bepaalde IP-adres heeft. Als een gebruiker deze tekst opvraagt gaat de browser naar de bijbehorende IP-adres en vraagt daar de domeinnaam weer op. Bijvoorbeeld, als een u in een internet browser zoals FireFox, Chrome of Safari example.com invult dat geeft de DNS aan de browser door dat het adres 192.0.43.10 (dit is IPv4) is. De DNS is dus al het ware een re-direct naar de server. Het grote voordeel hiervan is, is dat in tegen stelling van een telefoonnummer, de naam onafhankelijk is van het nummer. Immers zolang de DNS wordt up-ge-date naar de juiste IP-adres blijft de naam ongewijzigd. Een onderdeel van DNS is de naamserver. Een naamserver is geen nummer, zoals bij het IP-adres (IPv4), maar een naam net zoals de domeinnaam die als een knooppunt fungeert. Deze naamserver geeft op haar beurt weer door waar de web site zich bevindt op het netwerk. Natuurlijk is er nog veel meer te vertellen over DNS en het protocol maar een beknopte introductie is voor dit artikel genoeg.

Hierbij kunnen verschillende dingen misgaan. Bijvoorbeeld de naamserver is niet goed opgegeven of de naamserver wijst niet naar de web site op de daadwerkelijke locatie op het netwerk. Met andere woorden, de DNS-routering, de route die wordt doorlopen om op de server waar de web site wordt gehost te komen, verloopt niet goed. Het gevolg hiervan is, is dat gebruikers uw web site niet kunnen bezoeken en aangezien Googlebot ook een bezoeker is heeft dit ook effect op Googlebot. Nu komt dit, over het algemeen, wel eens voor, bijvoorbeeld omdat de naamserver wordt herstart of de DNS-server of de aanvraag is niet goed verstuurd. Vaak is dit van zeer korte duur en als de gebruiker de pagina opnieuw probeert te laden komt de aanvraag wel aan en wordt de gehele DNS route goed doorlopen. Echter soms stuurt Google wel waarschuwingen (als het langer duurt) via GWT. Over het algemeen hebben deze waarschuwingen geen effect op de positie van uw web site in de zoekresultaten. Maar als de DNS-routering problemen vaak en lang voorkomen dan dit wel effect hebben op de positie van een web pagina in de zoekresultaten. Waar deze grens ligt is onbekend, wat wel bekend is, is dat Google een beleid heeft om gebruikers niet naar web pagina’s te sturen die niet werken. Immers dit is niet erg gebruikersvriendelijk. Een specifiek en veelvoorkomend probleem met DNS zijn wildcard sub-domeinen.

Wildcard sub-domeinen

Wildcard sub-domeinen zijn sub-domeinen die op verzoek worden gemaakt. Dat wil zeggen, als iemand naar een willekeurige sub-domein gaat van een domeinnaam dan geeft de server aan dat het sub-domein bestaat. Servers kunnen hier verschillend op reageren en is afhankelijk van de instellingen van de server. Een veel voorkomende is dat de server een 301 permanent redirect of een 302 temporily re-direct (bekijk adresverhuizing om een idee te krijgen van een re-direct) naar de root (het hoofd domein). Een ander veel voorkomend wildcard sub-domein is dat de web site wordt gepresenteerd. Dat wil zeggen, dat de web site die via de domeinnaam te bereiken is ook op een willekeurig sub-domein te bereiken is. Het probleem hiermee is, is dat Googlebot al deze wildcard sub-domeinen moet langs gaan (crawlen) om te bekijken of de inhoud wel of niet het zelfde is als de root (hoofd domein). Hierdoor kan het voorkomen dat Googlebot uw web server onnodig vaak bezoekt en daardoor gebruikt u uw web server niet efficiënt. Best practise is om de verbinding te verbreken of, als dit niet kan, een 500 error te geven (zie hieronder voor 5xx errors) of een 404 “not found” te presenteren.

Servererrors

Serverfouten zijn errors die na de DNS-routering gebeuren. De server is gevonden maar de server reageert niet zoals verwacht. Deze servererrors worden daarom over het algemeen veroorzaakt door de server zelf en niet door de aanvraag. In andere woorden, de server was niet in staat om op de aanvraag (request) te reageren (response). De response die de server geeft is een 5xx, waar xx kan wordt vervangen door specifieke error. Bijvoorbeeld een 503 geeft aan “service unavailable“. De 503 error wordt gebruikt als de aanvraag niet in behandeling kan nemen omdat er te veel aanvragen zijn of omdat er onderhoud aan de server wordt verricht. De 503 is daarom een tijdelijke error. Hierbij dient te worden opgemerkt dat het geen verplichting is om een 5xx error te geven. De verbinding kan ook worden verbroken, maar de meeste servers geven een 5xx error als er iets aan de hand is. Er zijn ook andere 5xx errors buiten de 503 om die duiden op een mis-configuratie van de server. Echter bij een server in productie is de 503 of de niet-specifieke 500 (dit is een algemene error voor servererrors) het meest voorkomende. Over het algemeen zijn deze errors tijdelijk en hebben ze geen effect op de positie van zoekresultaten. Als Googlebot een serverfout tegen komt dan zal Google tijdelijk terughoudend uw web site crawlen. Dat wil zeggen, Googlebot zal een 503 error interpreteren dat de server tijdelijk moeite heeft om al het verkeer naar de web site te behandelen en daarom zal Googlebot uw web site tijdelijk niet bezoeken en langzaam het aantal bezoeken weer opvoeren tot de normale ratio. Met als u opeens veel verkeer heeft en daardoor niet instaat bent op per direct de capaciteit van uw server te vergroten kan u ook gebruik maken van de crawl ratio in GWT. Deze vindt u in de “Setting” onder “Configuratie”. Echter als deze errors veel voorkomen dan kan dit wel van invloed zijn op de positie van zoekresultaten. Er zijn twee veel voorkomende problemen die een server time-out geven voor Googlebot.

Dynamische web pagina’s

Met dynamische web pagina’s wordt bedoeld een web pagina die op basis van een invoer door de gebruiker verschillende web pagina’s weergeeft. Deze invoer wordt aan de server verstuurd en de server geeft op basis van die invoer de web pagina. Een voorbeeld van een dynamische web pagina is een web pagina met appels als producten en gesorteerd op prijs een voorbeeld van een URL kan zijn:

example.com/index.php?categorie=fruit&product=appels&sorteer=prijs

Als een bezoeker deze URL invult dan geeft de server op basis van de informatie in de URL een web pagina waarbij de categorie fruit is en het product appels en gesorteerd op prijs. Kortom dynamische web pagina’s worden op basis van de invoer (in dit geval in de URL) door de server gepresenteerd. Nu is dit over het algemeen geen probleem en kan de server alle aanvragen gemakkelijk aan, maar als er zeer veel parameters worden aangevraagd per keer en het aantal aanvragen zeer hoog is dan kan er een “timeout” plaats vinden. Dat wil zeggen, de server kan het aantal aanvragen niet aan en moet, bijvoorbeeld, een 503 error geven. Net zoals elke bezoeker kan dit ook voorkomen voor Googlebot. Daarom is het aan te raden om het aantal parameters beperkt te houden. Echter in tegen stelling tot een “gewone” gebruiker kan u uw web site optimaliseren voor Googlebot. U kunt de crawl efficiency vergroten. Dat wil zeggen, u geeft aan wat de meest efficiënte manier is voor Googlebot om uw web site te bezoeken. Bekijk mijn artikel over het gebruik van de URL parameter in GWT om een beter idee te krijgen over url parameters en crawl efficiency.

Server beveiliging

Het beveiligen van een server is natuurlijk goed. Echter soms kan een beveiliging tegen Googlebot werken. Het kan voorkomen dat Googlebot door de beveiliging van de server wordt tegengehouden. Dit gebeurd omdat Googlebot de web site zeer veel keer opvraagt en Googlebot kan dit doen vanuit de zelfde IP-adres. Omdat een bepaald IP de web site zeer vaak opvraagt kan het voorkomen dat de firewall of andere anti-DoS methode die het IP-adres waarvan Googlebot komt blokkeert. Een DoS-attack is een aanval op de server om een Denial of Service te bewerk stellen. Vaak wordt ook DDoS-attack gebruikt wat staat voor Distributed Denial of Service attack. Over het algemeen werken beide ongeveer het zelfde waarbij er in een korte periode zoveel web pagina’s worden opgevraagd waardoor de server de aanvragen niet meer kan verwerken en daardoor de verbinding weigert of een 5xx error presenteert. Een volledige bescherming tegen een DDoS of DoS is niet altijd mogelijk en daarom gebruiken servers IP-adressen om te bekijken of er sprake is van een DoS-attack of niet. Hierbij bekijken ze hoeveel keer een bepaalde IP-adres iets opvraagt van de server en als deze x keer is dan wordt dit IP-adres geblokkeerd tenzij het IP-adres aan een lijst is toegevoegd (white-list). Natuurlijk zijn er meer geavanceerde software maar, beknopt, werken ze ongeveer op die manier. Het kan voorkomen dat het IP-adres van Google niet aan deze lijst is toegevoegd en daardoor kan het voorkomen dat de server beveiliging Googlebot blokkeert.

Als dit gebeurt dan kunt u een “reverse DNS lookup” uitvoeren. Google bezoekt uw web site met de User Agent Googlebot. Een user agent is een stukje tekst die aan de server wordt gegeven waarop vermeldt staat welk programma wordt gebruikt om een web pagina te laden, bijvoorbeeld FireFox, Chrome of Safari. De user agent geeft meer aan dan alleen de software die gebruikt wordt en andere internet technieken geven andere user agents zoals e-mail programma’s. Net zoals andere software die wordt gebruikt om het internet te gebruiken gebruikt Google voor haar software de user agent Googlebot. Door gebruik te maken van deze informatie kunt u een “reverse DNS lookup” uitvoeren. Hierbij vraagt u aan de DNS server of het IP-adres waarmee Googlebot langs komt van Google is. Als dit zo is dan wordt deze IP-adres aan de veilige lijst toegevoegd.

Robots.txt zijn dat ook sitefouten?

De robots.txt is een tekst bestand direct op de root (bijvoorbeeld: example.com/robots.txt). In dit bestand kunt u robots zoals Googlebot maar ook andere bots zoals Bingbot toegang weigeren tot delen van uw web site. Met robots.txt kunt u crawlers blokkeren en bezoekt Googlebot de geblokkeerde web pagina’s niet. Hiervoor geldt een specifiek protocol die ik hier niet zal bekijken. Echter Googlebot zeer specifiek als het gaat om robots.txt. Als Google geen toegang heeft tot de robots.txt dan zal Google uw web site niet meer bezoeken. De rede waarom dit gebeurt is omdat Google niet de fout wil maken dat ze een web pagina bezoeken die ze niet had mogen bezoeken. Dus als Googlebot een 503 error krijgt op de robots.txt dan zal Google de hele web site niet meer bezoeken totdat de 503 error er niet meer is. Met andere woorden, door een serverfout op een specifiek bestand, robots.txt, wordt het crawlen van uw web site volledig uitgesteld. Hierbij dient wel vermeldt te worden dat als er een 404 (not found) wordt weergegeven Googlebot uw web site wel bezoekt. Een 404 wordt gegeven door de server als de het bestand niet op de server is. Met andere woorden, de robots.txt is niet aanwezig op het domein. Googlebot interpreteert dit als dat ze toegang heeft tot de hele web site.

In het kort, een 503 geeft aan Googlebot dat de gehele web site niet gecrawlt mag worden terwijl een 404 aangeeft dat Googlebot de gehele web site zonder enige beperkingen mag crawlen.

Tot slot,

Over siteerrors is nog veel meer te vertellen. Sitefouten is slechts een verzamelnaam voor van alles wat fout kan gaan op een server, DNS of iets anders waardoor uw web site down kan zijn. Daarom is dit slechts een introductie om GWT en het onderdeel “Crawlfouten” beter te begrijpen. Onder dit onderdeel valt ook URL-fouten die ik in mijn volgende artikel zal bekijken. Verder heb ik niet naar crawlfouten bekeken die specifiek voor nieuws sites zijn. Nieuws sites zijn zeer specifieke web sites en een web site komt niet zo maar in aanmerking voor Google Nieuws en daarom heb ik deze hier buiten beschouwing gelaten.

Bekijk ook de andere artikelen van de tab “Gezondheid” in GWT:

URL-fouten  Crawl statistieken  Geblokkeerde URL’s  Ophalen als Googlebot  Indexeringstatus  Malware

Een reachtie op “Google Webmaster Tools: Gezondheid – Crawlfouten en siteerrors”

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>