Google Webmaster Tools: Gezondheid – Crawlfouten en URL-fouten

Banner: Google's hulpprogramma voor webmasters: Crawlfouten - URLfouten

Het is niet het einde van de web site maar het is goed om een oog te houden op crawlfouten. De crawlfouten die Google weergeeft zijn 404, soft 404, niet gevolgt en toegang geweigerd.

Googlebot is de crawler van Google en vindt web pagina op basis van links op een pagina. Als de crawler een link op een pagina vindt dan volgt de crawler deze en crawlt de gevolgde web pagina. Daarom worden crawlers ook wel spiders genoemd, andere namen zijn robots of bots. Nu kan het zijn dat de link die gevolgd wordt niet toegankelijk is voor Google of dat de server een error geeft. Dit zijn URL-fouten. In mijn vorige artikel heb ik gekeken naar site-fouten. In dit artikel zal ik kijken naar URL-fouten. URL-fouten in crawlerrrors zijn errors die Googlebot is tegen gekomen bij het bezoeken van een specifieke web pagina op de web site. Hoewel server errors ook voor specifieke URL’s kunnen voorkomen, en daarom zowel sitefouten als URL-fouten kunnen zijn, zal ik die hier niet behandelen. Ook zal ik niet ingaan op specifieke crawlfouten voor nieuws sites. Crawlfouten kunnen worden onderverdeelt in:

  • Niet gevonden. Dit zijn URL’s met die een 404 error geven.
  • Soft 404. Dit zijn URL’s die technisch wel op de server bestaan (200 okay code geven) maar uit de web pagina heeft Google afgeleid dat ze eigenlijk een 404 horen te geven.
  • Niet gevolgd. Dit web pagina’s die Googlebot niet kan volgen. Bijvoorbeeld omdat de inhoud moeilijk te crawlen is of omdat de web pagina’s continue re-direct naar zichzelf.
  • Toegang geweigerd. Googlebot heeft geen toegang tot een bepaalde web pagina.

Dit zijn de meest voorkomende URL-fouten maar er kunnen ook andere URL-fouten voor komen.

Niet gevonden URL’s wat zijn dat?

Niet gevonden web pagina’s zijn 404’s pagina. Dit betekend dat de bezoeker contact heeft met de server maar dat de server de web pagina niet heeft gevonden op de server. Met andere woorden, de server geeft aan client (een web browser zoals Chrome, FireFox of Safari bijvoorbeeld) de code 404 in de HTTP header. Niet gevonden pagina’s of 404-errors komen vaak voor en over het algemeen is er weinig tot niks aan de hand. Verder behandeld Google een 410 gone het zelfde als een 404-error. De rede waarom er 404’s voorkomen komt, bijvoorbeeld, omdat iemand een spel fout heeft gemaakt bij het linken naar uw web site. 404 NEEEen ander voorbeeld is wanneer u een web pagina verwijderd van uw web site. Kortom 404-fouten zijn normaal en zoekmachines zijn hiervan op de hoogte en daarom heeft het aantal 404’s geen impact op de positie van een web site in de zoekresultaten.

Echter als er een grote toename is in 404-fouten dan kan Google een bericht sturen via GWT. Vaak is dit een “alert” of waarschuwing en als u bijvoorbeeld een categorie van uw blog heeft verwijderd dan is er in beginsel niks aan de hand. In de crawl-fouten pagina in Google’s hulpprogramma voor webmasters (hierna: GWT) kunt u doorklikken en bekijken vanwaar er wordt gelinkt naar de 404-fout. Als deze vanuit de web site komen, interne links, dan kunt u deze links op de web site aanpassen. Laten we kijken wanneer een 404 zinvol is en wanneer niet en hoe u kunt omgaan met 404’s.

Wanneer is een 404-error handig en wanneer niet

Zoals al eerder gezegd 404-fouten zijn normaal en vaak is het niet nodig om actie te ondernemen. Een 404 pagina is handig als er naar uw web site wordt met een zeer merkwaardige en naar een weinig zinvolle URL. Als er bijvoorbeeld wordt gelinkt naar de URL example.com/viagra.html dan is een 404 de enige goede reactie van uw web site (tenzij u een apotheker bent). Ook wanneer er wordt gelinkt naar een bepaalde sleutelwoord (zoals viagra in het voorbeeld) die niks met uw web site te maken heeft is een 404-pagina best practise. Verder als u een web pagina verwijderd die niet de kwaliteit vertegenwoordigd van uw web site dan is een het presenteren van een 404-error de beste keuze. Bijvoorbeeld als een web pagina weinig tot geen content heeft en daardoor is de web pagina verwijderd dan is een 404-error een goede keuze.

In plaats van een 404-fout kunt u ook een 301 permanent re-direct gebruiken. Net zoals een 404 is een 301 een reactie van de server die aangeeft dat een bepaalde pagina permanent verhuist is naar een nieuwe locatie. Om een idee te krijgen over een 301 permanent re-direct bekijk mijn artikel over het verhuizen naar een nieuw domein.

Een 301 permanent re-direct is een betere optie als er bijvoorbeeld twee de zelfde web pagina’s maar de pagina’s zijn via een een weg te bereiken. Bijvoorbeeld als een een e-commerce site heeft waarbij een product in twee categorieën is ingevoerd en daardoor is de product pagina via twee verschillende wegen (URL’s) te bereiken. Voorbeeld, het product t-shirt is te bereiken via de categorie heren-kleding en via shirts:

example.com/heren-kleding/t-shirt/

example.com/shirts/t-shirt/

In plaats van het verwijderen van de web pagina “t-shirt” in de categorie “shirts” kunt u er beter voor kiezen om een 301 permanent re-direct naar de web pagina “t-shirt” in de categorie “heren-kleding”. Dit geldt ook als u de gehele categorie “shirts” wil verhuizen naar de nieuwe categorie “heren-kleding”. Kortom als er meerdere URL’s zijn of als een web pagina wordt verhuist naar een nieuwe locatie op de web site dan is een 301 permanent re-direct een betere optie dan een 404-pagina.

404 > 301 ?

Ook wanneer een link naar uw web site een spelfout heeft dan kunt u in plaats van een 404 een 301 gebruiken. Bijvoorbeeld iemand (buiten uw web site) linkt naar de volgende web pagina:

example.com/heren-kleding/t-shirts/

In dat geval kunt u een 301 plaatsen naar de juiste web pagina (“/heren-kleding/t-shirt”). Buiten zoekmachines is deze manier ook zeer gebruikersvriendelijk. Immers bezoekers die via de link komen worden direct naar de juiste pagina gestuurd en krijgen geen 404-error pagina te zien. Als alternatief kunt u ook de webmaster van de andere web site vragen om de link te corrigeren zodat die naar linkt naar de juiste URL. Echter dit is vaak een moeizaam proces en werkt in de praktijk niet goed. Daarom is een 301 permanent re-direct een uitstekende oplossing.

Tot slot, zoals al eerder gezegd 404-errors komen vaak voor op het internet en het naar alle waarschijnlijkheid niet mogelijk om alle 404-fouten op te lossen. Daardoor zijn 301 permanente re-directs handig voor 404-fouten die veel verkeer brengen naar uw web site. Met andere woorden, het is goed om prioriteiten te stellen en u zal niet alle 404-fouten kunnen op lossen.

Soft-404 een probleem voor webmasters?

Een soft-404 pagina is een pagina waarbij de server aangeeft dat die wel bestaat maar uit de content is af te leiden dat de pagina niet bestaat. Technisch is een soft-404 een gewone web pagina terwijl het voor de gebruiker duidelijk is dat de pagina niet aanwezig is op de web site. Met andere woorden, de server presenteert een 200 okay terwijl de server een 404 not found had moeten geven. Zoekmachines hebben speciale software ontwikkeld om deze soft-404 op te sporen. Google geeft deze weer in GWT onder crawl-errors. Echter voor zoekmachines kan dit problematisch zijn. Omdat de server aangeeft dat de pagina op de web site bestaat kan het voorkomen dat zoekmachines de inhoud van een soft-404 crawlen en indexeren waardoor uw web site gevonden kan worden voor die inhoud op de zoekmachine. Hierdoor kan het voorkomen dat de web site totaal ongerelateerde sleutelwoorden krijgt toegewezen. Daarnaast kan het voorkomen dat zoekmachines deze URL’s continue bezoeken met crawlers, zoals Googlebot, waardoor de echte web pagina’s niet gecrawld en ge-indexeert worden. Kortom soft-404 zijn niet wenselijk en het is van belang dat de server een duidelijke reactie geeft, een 404-error.

Niet gevolgd

Niet gevolgd of not followed betekend dat Googlebot de URL’s niet kon volgen. Dit betekend dat de web pagina’s niet door Googlebot konden worden gevonden of niet volledig en daarom kunnen de web pagina’s niet (volledig) worden gecrawld en ge-indexeert. We kunnen deze onderverdelen in actieve content en re-directs. Er zijn meerdere voorbeelden maar deze twee zijn het meest voorkomende.

Actieve content

Hoewel crawlers zoals Googlebot steeds beter worden om verschillende content te begrijpen en te indexeren kan het moeilijk zijn voor Googlebot om bepaalde content goed te begrijpen. Veel web sites zijn tegenwoordig veel meer dan alleen een statische web site. De content wordt door ingewikkelde javascript gepresenteerd. Als er naar de code wordt gekeken dan is daar geen content te vinden. Omdat de zoekmachines deze content niet zien kan de content ook niet worden gecrawld en ge-indexeert. Een ander voorbeeld is een Flash web site. Deze web sites zijn vaak visueel en gebruiken Flash om allerlei interactieve elementen toe te voegen. Echter zoekmachines kunnen de inhoud vaak niet lezen of niet goed lezen waardoor de web pagina’s niet worden ge-indexeert.

Met andere woorden actieve content zijn web pagina’s waarbij de URL niet veranderd maar de content wel. Vaak veranderd deze content op basis van een invoer die de gebruiker van de web pagina op geeft of een specifieke actie die de gebruiker op de web pagina doet. Doordat deze content telkens veranderd kan het zijn dat zoekmachines moeite hebben om de content te crawlen. De oplossing is vaak een alternatieve manier bieden voor bezoeker (zoals bij Flash waarbij gebruikers geen Flash hebben geïnstalleerd) en crawlers zodat de content wel via een statische web pagina kan worden bereikt.

Re-directs

Het kan voorkomen dat een re-direct wijst naar een andere re-direct die weer re-direct naar de orginele re-direct. Hierdoor ontstaat een oneindige loop welke niet kan worden bezocht door zowel Googlebot als een gebruiker. Vaak gaat het hier om een verkeerde instelling op de server en als deze is opgelost dan verloopt alles weer normaal. Over het algemeen, is het best practise om zo weinig mogelijk re-directs te hebben.

Toegang geweigerd

Googlebot net zoals andere spiders of crawlers indexeren het internet door links op web pagina’s te volgen. Hiervoor is het nodig dat ze toegang hebben tot de web pagina.  Voorbeelden waarom Googlebot geen toegang heeft kunnen zijn:

  • Een log in pagina. Om de web pagina’s te zien is het nodig dat een gebruiken in logt op de web site.
  • De robots.txt geeft aan dat een bepaalde pagina geblokkeerd is voor Googlebot of omdat er een site-error is (zie site-errors in GWT).
  • De hosting provider heeft de toegang geblokkeerd (dit is ook een site-error).

Met betrekking tot een log in pagina kan u Googlebot wel toegang geven (hierbij kunt de user agent van Googlebot gebruiken, echter ik zal hier verder niet op ingaan). Maar hierbij zijn wel additionele regels. U kunt bijvoorbeeld uw content dat achter een log in pagina is wel in de index van Google plaatsen als u gebruik maakt van “first click free”. Hierbij gaat het om web sites waarvan de content achter een log in pagina is omdat, bijvoorbeeld, de gebruikers eerst een abonnement moeten afsluiten of omdat gebruikers zich eerst moeten registreren. Met de “first click free” dient u alle gebruikers die vanaf Google Search komen toegang te geven tot de volledige content. Echter als deze gebruikers door klikken naar andere content dan kunt u een log in pagina presenteren.

Tot slot,

Er is nog veel meer te vertellen over dit onderwerp. Maar dit is een introductie in de begrippen die relevant zijn voor crawl-error en specifiek URL-errors. Met name met betrekking tot de 404-error is er nog veel meer te zeggen zoals een custom 404-pagina die ervoor zorgt dat gebruikers een meer nuttige 404-pagina krijgen gepresenteerd dan de standaard server-pagina. Ook is er een hele hype ontstaan rond het fenomeen custom 404-pagina. Ook met betrekking tot toegang geweigerd is nog veel meer te doen. Hier heb ik al gehint naar de “first click free”. Tot slot, in de twee artikelen over crawl-fouten heb ik onderscheid gemaakt tussen site-fouten en URL-fouten maar als we naar de specifieke onderdelen kijken dan zien we dat de crawl-errors vaak zowel site- als URL-errors kunnen zijn.

Bekijk ook de andere artikelen van de tab “Gezondheid” in GWT:

Site-fouten  Crawl statistieken  Geblokkeerde URL’s  Ophalen als Googlebot  Indexeringstatus Malware

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>