Google Webmaster Tools: Configuration – URL Parameter

GWT URL parameter bannner

Door URL parameters kan Googlebot soms veel en veels te veel crawlen. In Google's webmaster tools kan de webmaster de crawl efficiency vergroten met URL parameter tool.

De URL parameter functie is een vrij geavanceerde functie in Google’s hulpprogramma voor webmasters (hierna: GWT) en daarmee is het gemakkelijk om fouten te maken. En door deze fouten kan het voorkomen dat Google gedeeltes van uw web site niet meer indexeert. Doordat Google deze gedeeltes niet meer index kan verliest u ook de content van deze web pagina in de zoekresultaten van Google Search. Het is dus van belang dat u goed weet welke gevolgen deze actie heeft voor uw web site. Met andere woorden, de URL parameter functie is een zeer krachtige functie en daarmee heeft u ook meer verantwoordelijkheid. De voorloper van de URL parameter tool was Parameter handling, welke was vervangen in juli 2011.

Google is zelfs zo bezorgt dat webmaster fouten maken met deze tool dat ze een waarschuwing geven voordat u deze functie kan gebruiken. Zelfs als u door klikt geeft Google nog een waarschuwing in duidelijke kleuren. In dit artikel zal ik eerst een beknopte uitleg gegeven over wat een URL parameter is. En natuurlijk de vraag: Waarvoor wordt URL parameter tool gebruikt? Waarna ik zal kijken naar wat er in GWT kan worden ingesteld en wat Google met deze informatie doet. Ook zal ik kijken naar andere alternatieve instellingen die op de web site/server kunnen worden ingesteld waardoor in principe deze URL parameter functie niet gebruikt hoeft te worden. Dit geldt voor meer functies in GWT. Immers het is een hulpprogramma en vaak is het beter om dit op de web site/server te uitvoeren dan via GWT.

Eerste waarschuwing over URL parameter tool

Tweede waarschuwing URL parameter tool

Wat zijn URL parameters?

Soms worden URL parameters soms ook wel query strings genoemd omdat ze de waarde van een web formulier bevatten. Vaak worden deze weergegeven in de zoek pagina (over het algemeen dienen web pagina’s waar zoekresultaten worden weergegeven geblokkeerd te worden voor Googlebot) van een web site maar ook in het sorteren van (bijvoorbeeld) producten in een categorie van producten, bijvoorbeeld op prijs of op alfabetische volgorde. Parameters zijn dus niet op alle web pagina’s te vinden. Deze parameters zijn over het algemeen te vinden op dynamische web pagina’s. Dat wil zeggen, web pagina’s die op basis van een invoer de content op de web pagina veranderen. Natuurlijk zijn er ook andere oorzaken waarom er parameters worden gebruikt, bijvoorbeeld veel content management systemen gebruiken parameters echter door het gebruik van rewrites (het herschrijven van de URL of de weg naar de web pagina door de server) worden deze pagina’s vaak omgezet in een statische web pagina (zonder URL parameters). Wat deze twee voorbeelden gemeen hebben is dat ze beide een key and een value bevatten in de URL. Bijvoorbeeld voor de zoek URL kan het zijn example.com/search?query=example waar query de key is en example de value. Deze parameter vertellen dus iets over de web pagina.

Echter dit is ook het probleem voor Google. Neem bijvoorbeeld deze URL van een web pagina op een webwinkel:
example.com/product.php?sorteer=laagste-prijs&filter=rood&sid=123

Hierbij zijn er drie keys met bijbehorende values (waardes), namelijk sorteer met waarde laagste-prijs, filter met waarde rood en sid (sessie id) met waarde 123. De volgende URL’s geven precies de zelfde pagina:

example.com/product.php?sorteer=laagste-prijs&sid=123&filter=rood
example.com/product.php?filter=rood&sorteer=laagste-prijs&sid=123

En waarschijnlijk zijn er nog meer URL’s te verzinnen. Deze URL’s lijken op elkaar maar zijn niet het zelfde, namelijk telkens is de key/value volgorde veranderd. Met andere woorden, server geeft op basis van die parameters de zelfde content maar omdat de volgorden van de parameters verschillend is is de web (of path) naar het web adres (URL) verschillend. En bezoekers van de web site kunnen verschillende web adressen intypen om de zelfde web pagina te zien. Maar omdat deze URL’s verschillen bezoekt Googlebot (de crawler van Google) ze allemaal, net zoals elke andere bezoeker dit kan. En daarom de vraag waarom is dit niet goed voor mijn website?

Waarvoor wordt URL parameter tool gebruikt?

Omdat Googlebot de web pagina via verschillende wegen kan bezoeken kost dit meer bandbreedte en wordt er dubbele content geserveert aan Googlebot. Hoewel dubbele content in de zoekresultaten, in beginsel, niet een probleem is voor de web site beheerder kan dit soms wel betekenen dat uw lager staat in de zoekresultaten. Een voorbeeld waarom dit kan leiden tot een lagere positie zijn links naar de web pagina. Als de web pagina via verschillende wegen kan worden bezocht dan ik het ook aannemelijk dat mensen naar uw web pagina linken met verschillende URL’s. Hierdoor worden uw links verdeeld over meerdere versies van de zelfde web pagina waardoor het totaal aantal links per versie minder is dan wanneer er slecht één versie aanwezig is. Echter URL parameters lost dit probleem niet echt op omdat Googlebot de pagina’s niet meer crawlt. Het is dus niet echt een tool die ervoor zorgt dat de pagina’s geconsolideerd worden. Bekijk daarvoor het kopje: “In plaats van de URL parameter gebruik uw eigen web site/server”.

Daarom is deze functie in GWT meer bedoeld voor crawl efficiency. Hiermee wordt bedoeld dat Googlebot uw web site zo efficient bezoekt als mogelijk. Dat wil zeggen, Googlebot bezoekt alleen de web pagina’s die nodig zijn om een volledig beeld te krijgen van de web site. En met de URL parameter kan de webmaster instellen welke parameters er wel en welke parameters er niet gecrawld hoeft te worden. Daarmee wordt Googlebot geblokkeerd. Immers gedeeltes van de web site worden niet toegankelijk voor Googlebot.

Instellingen URL parameter

Meestal heeft Google alle parameters op uw web site al gevonden en wordt er een lijst met deze parameters gegeven. Als die niet zo is dan kunt u “Parameter toevoegen” klikken en de parameter waarvoor u wil instellen invoeren. Echter als u geen nieuwe web site heeft is het aannemelijk dat er een rede is waarom deze parameter er niet is. Bijvoorbeeld de URL’s van deze web pagina’s worden al geblokkeerd door gebruikt te maken van noindex. De noindex kan via een meta tag of via de header worden doorgegeven aan Googlebot waardoor de web pagina niet meer wordt weergegeven in de zoekresultaten, ook bezoekt Googlebot deze pagina niet meer zo frequent (bijvoorbeeld slechts om de 90 dagen). Een voorbeeld kan zijn de log in pagina waar de URL parameter route=account/login, vaak zijn deze al voorzien van een noindex en hoeft u daarom geen actie te ondernemen.

Screenshot van URL Parameter lijst

Als u klikt op “bewerken” wordt er vraagt of de content van de pagina veranderd. Als content van de pagina niet veranderd dan kan de webmaster kiezen voor “Nee: Heeft geen invloed op de pagina-inhoud”. Met deze optie bezoekt Googlebot alle web pagina’s met de betreffende parameter en kiest er één. Dit is een volledig automatisch proces (algorithm). Echter als de content wel veranderd dan is dit geen goede keuze. Immers door deze optie wordt het signaal gegeven dat de web pagina’s niet veranderen en daardoor kan het voorkomen dat Googlebot gedeeltes van een web site niet meer bezoekt waardoor ze niet meer in de zoekresultaten voorkomen. Wanneer de content van de pagina wel veranderd dan kunt u URL parameter instellen. De opties zijn:

  • Laat Google beslissen. Google heeft programma’s die kijken of een web pagina ook via een andere weg (URL) te zien is. Met name voor URL’s op de zelfde web site is Google vrij goed om de verschillende URL’s of de weg naar de web pagina te vergelijking en samen te voegen. Met andere woorden, vanuit Google worden verschillende URL’s al geconsolideerd tot één. Echter dit is niet volmaakt en dat is één van de redenen waarom deze functie bestaat in GWT, maar als u twijfelt over dan kunt deze setting “laat Google beslissen” laten staan. Hiermee veranderd niks en dit is de standaard instelling. Met andere woorden, als u twijfelt dan is dit de veiligste keuze.
  • Elke URL. Hiermee geeft u aan dat alle URL van deze key verschillende web pagina’s zijn. Bijvoorbeeld stel dat we twee web pagina’s hebben met unieke content met de volgende key/value URL’s voor categorieën:
    1. example.com/index.php?categorie=truien
    2. example.com/index.php?categorie=shirts.

    In dit voorbeeld hebben twee unieke web pagina’s, namely een categorie truien en een categorie shirts. Deze twee categorieën hebben beide andere content, zijn volledig onafhankelijk van elkaar en hebben beide een andere URL. Omdat deze twee web pagina’s van elkaar verschillen kunt u in de URL parameter functie kiezen voor “elke URL”.

  • Alleen URL’s met een waarde _____. Hierin kunt u aangeven dat een specifieke value van de key wel gecrawld dient te worden en de andere waardes hoeven niet gecrawlt te worden. Bijvoorbeeld, stel we hebben een web site waar gebruikers kunnen inloggen, een openbare profiel pagina hebben en naar een pagina kunnen gaan om een nieuwe wachtwoord aan te vragen. We willen dat Googlebot niet de log-in pagina en de wachtwoorde vernieuwen pagina bezoekt maar wel de profiel pagina en we hebben de volgende key/value URL’s:
    1. example.com/index.php?user=login
    2. example.com/index.php?user=profile
    3. example.com/index.php?user=pasword

    In dit geval kiezen we voor URL’s met waarde “profile”. Hierdoor wordt alleen het profiel gecrawld en login en wachtwoord pagina niet.

  • Geen URL’s. Hiermee geeft u aan dat alle web pagina’s op uw web site met deze key niet bezocht dienen te worden door Googlebot. Hiermee blokkeert u Googlebot geheel van uw web site met betrekking tot deze key. Stel we hebben een categorie met meerdere pagina’s en mensen kunnen dit op alfabetische volgorde zetten. Door het op alfabetische volgorde te zetten wordt er een extra parameter toegevoegd aan de URL. Bijvoorbeeld de volgende URL’s:
    1. example.com/index.php?pagina=1
    2. example.com/index.php?pagina=2
    3. example.com/index.php?pagina=1&sort=abc
    4. example.com/index.php?pagina=2&sort=abc

    Hierbij bevatten 1 en 2 samen de zelfde content als 3 en 4 samen. Doordat het de zelfde content is, is het niet nodig om 3 en 4 te crawlen voor Google. Immers beide sets of URL’s zijn het zelfde. Daardoor kunt u voor de key sort in deze situatie “Geen URL’s” kiezen. Maar hou er rekening mee dat Googlebot door deze keuze geblokkeerd wordt en daardoor is het nodig dat Googlebot de content kan bezoeken via een andere weg (URL).

Screenshot opties voor de URL parameter functie

Tijdens de verschillende mogelijkheden geeft Google duidelijk aan welke URL’s is wel en welke er niet gecrawld worden. Deze interface is duidelijk en zeer mooi gedaan door Google.

Screenshot waarin duidelijk wordt aangegeven wat wel en wat niet gecrawld wordt in URL parameter functie

In plaats van de URL parameter gebruik uw eigen web site/server

Veel van de signalen die u doorgeeft in de URL Parameter functie in GWT kunt u ook op uw eigen web site implementeren. Hierboven heb ik al gehint op een aantal maar ik zal er twee bekijken. Verder zijn de instellingen die u doorgeeft in GWT alleen geldig voor Google en niet voor andere zoekmachines zoals Bing. Daarom alleen al is het aan te raden om dit op de web site/server te implementeren.

Rel canonical

Met rel canonical geeft u aan zoekmachines door wat uw voorkeur URL is. Dat wil zeggen, u geeft aan zoekmachines door welke URL ze horen te crawlen en indexeren. In nog andere woorden, u geeft hiermee aan welke URL er in de zoekresultaten hoort te staan. Rel canonical kan op twee verschillende manieren geïmplementeerd worden op de web pagina. Via een link element in de head section van de web pagina:
<link rel="canonical" href="uw_URL"/>

En via de header:
Link: <uw_URL>; rel="canonical"

De laatste manier is vooral handig voor bestanden zoals pdf’s of andere formaten. Waar uw_URL wordt vervangen door de URL die uw voorkeur heeft. De connectie met de URL parameter is het best uitgelegd door middel van een voorbeeld. Stel we hebben een categorie en we gebruiken een sessie id om een bepaalde item op de web pagina weer te geven, bijvoorbeeld de producten in de winkelwagen. Daarom hebben we de volgende twee URL’s:

example.com/index.php?categorie=shirts&sid=123
example.com/index.php?categorie=shirt

Deze twee URL’s geven bijna de zelfde content met uitzonder dat er bij sessie id nog een product in de winkelwagen wordt weergegeven. Daarom kunnen we in de URL parameter de optie “geen URL” instellen voor de key sid. Echter in plaats van Googlebot blokkeren kunnen op de web pagina met een sid ook een rel canonical toe voegen naar de URL zonder sid. Als iemand linkt naar deze web pagina met een sessie id en Googlebot volgt deze dan zal Googlebot de URL met sid negeren en alleen een URL zonder sid weergeven. Op deze manier worden de verschillende URL’s tot één geconsolideerd en wordt de waarde die Google aan een web pagina geeft niet gesplitst in meerdere maar toegekend aan één. Ook andere zoekmachines zullen op deze manier reageren en daarmee is de rel canonical een methode die de voorkeur heeft over de URL parameter.

Noindex

De noindex kan net zoals rel canonical worden toegevoegd aan de head section van de web pagina of aan de header:
<meta name="robots" content="noindex" />
X-Robots-Tag: noindex

Met noindex vraagt u aan zoekmachines om deze web pagina niet op te nemen in de index. Hiermee wordt de web pagina niet weergegeven in de zoekresultaten. Als we bijvoorbeeld terug kijken naar dit voorbeeld:

Stel we hebben een web site waar gebruikers kunnen inloggen, een openbare profiel pagina hebben en naar een pagina kunnen gaan om een nieuwe wachtwoord aan te vragen. We willen dat Googlebot niet de log-in pagina en de wachtwoorde vernieuwen pagina bezoekt maar wel de profiel pagina en we hebben de volgende key/value URL’s:

  1. example.com/index.php?user=login
  2. example.com/index.php?user=profile
  3. example.com/index.php?user=pasword

In dit geval kiezen we voor URL’s met waarde “profile”. Hierdoor wordt alleen het profiel gecrawld en login en wachtwoord pagina niet.

In plaats van de URL parameter functie te gebruiken in GWT kunnen we ook de noindex toevoegen aan de login pagina en aan de wachtwoord pagina. Zeker wanneer er meerdere pagina’s zijn die nuttig zijn voor zoekmachines is de noindex de enige oplossing. Immers in de URL parameter kan er per key slechts één value worden aangegeven om gecrawld te worden. Verder, zeker in dit voorbeeld, is het aannemelijk dat als u bepaalde web pagina’s niet in Google’s zoekmachine wil hebben dan wilt u ze ook niet in andere zoekmachines. En daarom verdiend de noindex de voorkeur over de URL parameter functie in GWT.

Tot slot,

Er is veel meer te vertellen over parameters in URL’s en hoe ze gebruikt worden in web framework, content management system of forums. En mijn verhaal over key/value URL’s is slechts een introductie. Verder is er ook veel meer te vertellen over het laatste gedeelte waarin we naar rel canonical en noindex hebben gekeken. Echter ook dit is slechts een introductie zodat u verder kan zoeken naar meer informatie specifiek over deze onderwerpen maar het was mijn bedoeling om aan te geven dat de URL parameter tool niet altijd de beste manier is. In tegenstelling, mijn voorkeur gaat uit om zoveel mogelijk zelf op de site/server op te lossen en niet te vertrouwen op GWT omdat de uitkomst vaak meer gewenst is dan die via GWT. Hoewel ik slechts twee populaire manieren heb behandeld die ervoor zorgen dat de URL parameter tool, in beginsel, niet gebruikt hoeft te worden zijn er nog veel meer manieren maar we zijn aan het einde van dit artikel en ik hoop dat u nu een beter beeld heeft van de URL parameter tool in GWT.

Bekijk ook de andere artikelen van de tab “Configuratie” in GWT:

Settings  Sitelinks  Adreswijziging  Gebruikers en Partners

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>