Google’s hulpprogramma voor webmasters: Gezondheid – Indexeringstatus

Banner Indexeringstatus

Index status is een mooie functie in Google's webmaster tools maar toch te beperkt. De theorie erachter is mooier dan de functie zelf.

In Google’s webmaster tools (hierna: GWT) of Google’s webmaster central onder gezondheid is de tab indexeringstatus. In deze functie wordt een mooie grafiek weergegeven met data over het afgelopen jaar. Deze functie was gelanceerd op juli 2012. De “Indexeringstatus” bestaat uit twee grafieken: Totalen en Geavanceerd. Ik zal hier alleen kijken naar geavanceerd omdat daar alle informatie staat ook de informatie van Totalen. In deze categorie wordt aangegeven hoeveel URL’s Googlebot heeft gecrawld en geïndexeerd  De grafieken die worden weergegeven zijn:

  • Totaal geïndexeerd: Dit is het totaal aantal URL’s die in de web index van Google staat.
  • Ooit gecrawld: Dit is een cumulatief getal van URL’s die Google ooit heeft bezocht (deze zal ik niet verder bekijken).
  • Niet geselecteerd: Dit zijn URL’s die naar een andere pagina’s verwijzen zoals een 301 permanente re-direct maar ook pagina’s die Google als duplicaten heeft gekenmerkt.
  • Geblokkeerd door robots.txt: Dit zijn URL’s die Googlebot op het interweb heeft gevonden maar niet toegankelijk zijn omdat ze geblokkeerd worden in robots.txt. Bekijk mijn artikel over URL’s blokkeren.
  • Verwijderd: Dit is een speciale categorie. Dit zijn URL’s die verwijderd zijn op basis van een “URL removal request”.

Er is een groot verschil tussen crawlen en indexeren. Lees hierover verder in mijn artikel: Crawlen is geen indexeren. Verder, zoals hierboven al gehint is, wordt er gesproken over URL’s en niet over web pagina’s. De URL is de weg of het adres van een web pagina. Vaak kan deze via meerdere adressen worden bereikt. Bijvoorbeeld http://example.com en http://www.example.com. Beide geven de zelfde web pagina maar twee verschillende URL’s. In dit artikel zal ik kijken naar totaal geïndexeerde URL en niet geselecteerde URL’s.

Screenshot index status Google's hulpprogramma voor webmasters

Totaal geïndexeerd en niet geselecteerd

Eerst de grafiek die ook onder de Totalen tab wordt weergegeven. Dit is het totaal aantal geïndexeerde URL’s die Google in zijn index heeft. Dit zijn de URL’s die in de zoekresultaten naar voren kunnen komen. Met andere woorden, dit getal bevat geen URL’s die door Google als duplicaten zijn gekenmerkt, de niet-canonieke URL’s, URL’s die Google heeft gekenmerkt als niet nuttig, of een URL’s die noindex heeft. Dus dit getal is bijna altijd lager dan de nummer ge-crawlde URL’s. Ge-crawlde URL’s zijn URL’s die de crawler, Googlebot, heeft bezocht.

De niet geselecteerde URL’s komen niet in de zoekresultaten naar voren maar behoren wel tot de index. Hierbij heeft Google de URL’s geconsolideerd (samengevoegd) en in de zoekresultaten komen alleen de totaal geïndexeerde URL’s naar voren. Soms kan het gebeuren dat een web site voor langere tijd down is, bijvoorbeeld een aantal dagen. Omdat dit tijdelijk is houdt Google de web pagina’s in de index maar stuurt geen bezoekers naar uw web site omdat de web pagina’s uit de zoekresultaten zijn gehaald. Wanneer de web site weer geheel online wordt dit weer hersteld. Met andere woorden, in specifieke situaties kan het voorkomen dat de indexeringstatus niet in lijn is met de zoekresultaten. Dit doet Google zodat web sites zo snel mogelijk kunnen herstellen.

De canonieke URL

Veel web pagina’s zijn toegankelijk via meerdere URL’s. Deze duplicaten of niet-canonieke URL’s komen heel vaak voor op het internet. Dit kan voorkomen omdat, bijvoorbeeld, een content management systeem deze URL’s nodig heeft. De canonieke URL of de preferente URL is de URL die gezien wordt als de URL die de voorkeur verdient over de andere versies. Bijvoorbeeld de URL http://example.com/over-ons/ zegt meer en is meer gebruikersvriendelijk dan http://example.com/index.php?p=2 en is de eerste URL de canonieke URL. Voor zoekmachines kan het moeilijk zijn de verschillende URL’s met elkaar te vergelijken en de duplicaten eruit te filteren. Daarom is het advies om deze op de web site zelf weg te filteren door gebruik te maken van verschillende signalen. Deze actie heet canonicalization of, zoals Microsoft Bing dit in het verleden noemde, normalization. Tegenwoordig zijn zoekmachines vrij goed in het canoniseren van een web site en, zeker voor relatief kleine web sites, is het niet altijd nodig. Maar voor crawl efficiency is het toch raadzaam om zoveel als mogelijk de juiste canonieke signalen te geven op de web site. Met andere woorden, door de juiste signalen te geven kunnen crawlers, zoals Googlebot of Bingbot, de web site sneller crawlen waardoor nieuwe content vaak sneller wordt gecrawld en geïndexeerd. Er zijn drie manieren om aan zoekmachines de canonieke URL door te geven:

  • 301 permanent re-direct: Dit is re-direct waar de header code 301 bevat. Hiermee wordt aangegeven dat een bepaalde URL verhuist is voor altijd naar een nieuwe locatie. Bijvoorbeeld, de volgende twee URL’s geven de zelfde web pagina: http://example.com/ en http://example.com/index.html. Hierbij is het advies om http://example.com/index.html te re-directen via een 301 naar http://example.com/. Dit is het sterkste signaal voor een canonieke URL.
  • Via rel canonical: Hierbij geeft een URL aan zoekmachines door wat de preferente URL is of welke URL de canonieke is. Dit kan op twee manieren:
    • Rel canonical via de header: Hierbij stuurt de web server op aanvraag de volgende header:
      Link: <http://www.example.com/catalogus.pdf>; rel="canonical"
      Dit is met name handig voor bestanden zoals pdf’s waarbij er geen gebruik kan worden gemaakt van de volgende manier.
    • De meta tag rel canonical: Hierbij wordt de preferente URL doorgegeven door een link element in de head sectie van de html code:
      <link rel="canonical" href="http://www.example.com/over-ons/">
      Deze manier komt zeer vaak voor op web pagina’s. Hoewel het niet nodig is, kan het geen kwaad om deze ook op de canonieke URL te hebben.

    Deze manier is iets minder sterke signaal dan een 301 permanente re-direct maar als de rel canonical verkeerd is geïmplementeerd dan kan het zeker voorkomen dat bepaalde web pagina’s niet naar voren komen in de zoekresultaten. Daarnaast is het ook mogelijk om relatieve (ten opzichte van de root domein) URL’s te gebruiken in plaats van absolute. Bijvoorbeeld /over-ons/ (relatief) in plaats van http://example.com/over-ons/. Echter om zoekmachines zo duidelijk mogelijk te zijn wordt, over het algemeen, aanbevolen om absolute URL’s te gebruiken.

  • Consistent linken naar canonieke URL: De links naar een web pagina zijn ook een signaal. Bijvoorbeeld als er naar de home pagina wordt gelinkt dan is het beter om te linken naar http://example.com/ dan naar http://example.com/index.html, zeker wanneer er een 301 re-direct geplaatst is van index.html naar de root.

Duplicaten

dublicatenHoewel niet-canonieke URL’s ook duplicaten zijn kan het ook voor komen dat zoekmachines canonieke URL’s voor bepaalde web pagina’s identificeren als duplicaten. Hiervoor gebruiken zoekmachine speciale software (algorithm). Omdat deze pagina’s zijn gekenmerkt als duplicaten komen ze ook niet voor in de totaal geïndexeerd. Vaak is de basis de content van een web pagina. Bijvoorbeeld:

  • Veel boilerplate: Boilerplate is het gedeelte van een web pagina die op bijna alle web pagina’s binnen de web site gelijk zijn. Denk bijvoorbeeld aan een drop-down menu of een sidebar met widgets die telkens wordt herhaald op elke web pagina. Tegenwoordig is Google vrij goed in het detecteren van boilerplate. Echter in sommige situaties kan het voorkomen dat de web pagina niet wordt geïndexeerd omdat de boilerplate in vergelijking met de “unieke” content, de tekst die de web pagina onderscheidt van de andere web pagina’s op de web site, erg groot is. Bijvoorbeeld een zeer lange copyright of auteursrecht vermelding op elke web pagina. Zeker wanneer de daadwerkelijke content vele malen kleiner is dan de copyright vermelding kan dit leiden tot het niet-indexeren van de web pagina. Immers de verschillende web pagina’s lijken zoveel op elkaar dat de zoekmachine deze web pagina’s als één zien. Een oplossing is om een aparte pagina te maken voor copyright en onderaan de web pagina te linken naar de copyright pagina.
  • Lege pagina’s: Soms worden pagina’s voordat er daadwerkelijke content is leeg of bijna zonder content gepubliceerd, bijvoorbeeld omdat volgende maand een evenement van start gaat. Als er weinig tot geen unieke content op een web pagina is dan kan het voorkomen dat Google de pagina negeert en niet indexeert. Als de pagina echt gemaakt moet worden en er geen mogelijkheid is om unieke content te presenteren voor deze pagina dan kan men gebruik maken van noindex.
  • Veel van het zelfde: Als de content van de verschillende web pagina’s erg op elkaar lijken dan kan het voorkomen dat één van de web pagina’s niet wordt weergeven in de zoekresultaten. Bijvoorbeeld een ecommerce web site waar papier wordt verkocht. De webmaster heeft er voor gekozen om voor verschillende hoeveelheden verschillende web pagina’s te maken. Dit geeft de canonieke URL’s: http://example.com/papier/500 (voor 500 vellen papier) en http://example.com/papier/1000 (voor 1000 vellen papier). In dit geval is het beter om beide web pagina’s te consolideren tot één en op de web pagina de optie aan te bieden voor 500 en 1000 vellen.
  • Web site software: Sommige software reproduceert de web pagina automatisch op de home pagina of op een categorie zoals blog software (WordPress). Dit is, in beginsel, geen probleem maar als hele artikelen ook worden gezet op de andere URL’s dan kan Google ervoor kiezen om deze niet weer te geven in de index. De eerste paragraaf of introductie is prima maar het reproduceren van web pagina’s is, over het algemeen, niet de beste manier. Daarom weet hoe uw web site software werkt.

Noindex

URL’s die een noindex bevatten worden niet meegenomen in deze twee grafieken. Net zoals de rel canonical kan de noindex op twee manieren worden geimplementeerd:

  • Noindex via de header: De web server stuurt de volgende header bericht op aanvraag van de client:
    X-Robots-Tag: noindex
    Dit is met name handig voor bestanden zoals pdf’s. Maar ook voor bestanden die de webmaster niet in de zoekresultaten wil, zoals .sql bestanden (database bestanden, en ja Google crawled en indexeerd deze ook).
  • Via de robots meta tag: Dit is een stukje html code die in de head sectie van een web pagina’s wordt geplaatst:
    <meta name="robots" content="noindex" />

noindex

De noindex zorgt ervoor dat de web pagina’s wel gecrawld worden maar niet geïndexeerd en  daardoor niet in de zoek

resultaten naar voren komen. Zoals hierboven al gehint, kan de noindex worden gebruikt voor pagina’s die tijdelijk leeg zijn of tijdelijk zeer weinig content bevatten.

Wat kan ik met deze informatie

In beginsel erg weinig. Er worden wel getallen genoemd maar er worden geen URL’s weergegeven. Daarom is het vrij moeilijk om te achterhalen welke URL’s Google als zoekresultaat waardig ziet. Met andere woorden, getallen zeggen niks over welke URL’s beter geconsolideerd dienen te worden. Daarom kan er alleen iets algemeens worden gezegt over de grafieken. Als de not geselecteerde URL’s vele malen hoger is dan de totaal geïndexeerd dan kan er een probleem zijn met canonieke URL’s. Als er pieken in de grafieken zitten dan kan dit ook duiden op malware. Sommige malware maken automatisch pagina’s aan en vaak is deze content niet erg uniek. Dit kan een rede zijn voor een piek in de niet geselecteerde URL’s. Maar de theorie achter deze grafieken is veel interessanter dan de grafieken zelf.

Bekijk ook de andere artikelen van de tab “Gezondheid” in GWT:

Site-fouten  URL-fouten  Crawl statistieken  Geblokkeerde URL’s  Ophalen als Googlebot Malware

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>