URL’s verwijderen in Google’s hulpprogramma voor webmasters

banner-removal-tool

Als er haast is om een web pagina of web document te verwijderen dan is URL's verwijderen in Google's webmasters tools de ideale functie.

Als er haast is om bepaalde web pagina te verwijderen van de web site dan is dit de tool. Maar het is niet gelimiteerd tot alleen web pagina’s. Ook kunnen afbeeldingen of bestanden zoals PDF’s worden verwijderd met deze functie. Naast specifieke web pagina’s en bestanden kan de webmaster (de eigenaar of beheerder van de web site) ook hele folders verwijderen met deze tool of de hele web site. Het is daarom een zeer krachtige functie in Google’s hulpprogramma voor webmasters (hierna: GWT) en daarom dient de webmaster voorzichtig om te gaan met deze functie. Met andere woorden, deze functie verwijderd de content van Google Search en daarom de content niet meer voorkomen in de zoekresultaten.

Deze tool is alleen voor content op de web site, als u content op een andere web site wil verwijderen dan kunt u meestal bij de web site zelf terecht door middel van de contact pagina of volg dit artikel van Google. In dit artikel zullen we kijken naar het verwijderen van een web pagina, het verwijderen van bestanden zoals afbeeldingen en het verwijderen van de hele web site. Deze functie kunt u vinden in GWT in de tab “optimalisatie” onder “URL’s verwijderen”.

Het (snel) verwijderen van een web pagina

Het is vrij gemakkelijk om een web pagina te verwijderen uit de index door gebruik te maken van de “removal” tool in GWT. Allereerst dient de juiste URL te worden gevonden. Dit kan de webmaster doen door te kijken naar de zoekresultaten. Namelijk de URL waar de zoekresultaat naar leidt is de juiste URL.

juiste url vinden voor removal tool

Hierbij zijn de URL’s wel hoofdletter-gevoelig. Dat wil zeggen, als een URL ook via een hoofdletter te bereiken is dan dient deze apart te worden ingevoerd. Bijvoorbeeld example.com/help.html en example.com/HELP.html zijn de zelfde web pagina maar omdat de ene met een hoofdletter is geschreven moet de webmaster om deze web pagina te verwijderen uit de index twee aanvragen doen voor help.html en voor de hoofdletter HELP.html. Als de webmaster één de twee vergeet dan zal de web pagina in de index blijven. Deze actie is 90 dagen geldig en daarom is het nodig om additionele acties te ondernemen.

screenshot url verwijderen

Om ervoor te zorgen dat de content niet wordt gecrawld en geïndexeerd is het nodig dat de webmaster binnen 90 de web pagina verwijderd waardoor er een HTTP 404 (not found) of HTTP 410 (gone) wordt verzonden door de server of de web pagina blokkeren door gebruik te maken van robots.txt. De robots.txt blokkeerd Googlebot waardoor de URL niet meer wordt gecrawld en geïndexeerd. Met andere woorden, de robots.txt wordt alleen gebruikt als de web pagina niet verwijderd wordt van de server. In nog andere woorden, een 404 (not found) is de beste optie maar als dat niet mogelijk is dan kan de webmaster gebruik maken van de robots.txt. In het voorbeeld hierboven staat er in de robots.txt het volgende:

User-agent: *
Disallow: /help.html
Disallow: /HELP.html

Omdat in het voorbeeld de web pagina via twee URL’s te bereiken is moet er ook in de robots.txt twee lijnen worden aangemaakt. Immers ook robots.txt is hoofdletter-gevoelig (meer over het blokkeren van zoekmachines zie Geblokkeerde URL’s).

Echter het probleem met de robots.txt is dat er wel partiële indexatie kan plaats vinden. Dat wil zeggen een gedeelte van de web pagina kan geïndexeerd worden als er andere bronnen op het internet zijn. De meest voor de hand liggende bron zijn links naar een web pagina. De informatie die deze links bevatten kunnen ervoor zorgen dat de URL van de web pagina wel naar voren komt in de zoekresultaten. Een voorbeeld:

zoekresultaat wordt geblokkeerd door robots.txt

Daarom is er ook een andere methode die webmaster kan gebruiken als de web pagina uit de index moet worden gehaald. Namelijk, de webmaster kan noindex gebruiken. De webmaster kan op twee manieren gebruik maken van de noindex:

  • Door middel van een meta tag: <meta name=”robots” content=”noindex” />
  • Of door middel van een HTTP header: X-Robots-Tag: noindex

Op deze manier geeft de webmaster aan dat de URL niet geïndexeerd dient te worden. Op die manier word de URL uit de index gehaald en komt deze ook niet naar voren in de zoekresultaten. Echter Googlebot moet eerst de URL crawlen voordat deze wordt verwijderd.

Echter als URL’s geblokkeerd worden door de robots.txt dan heeft Google geen informatie over de content op de web pagina en daardoor zal de URL naar alle waarschijnlijkheid zeer laag staan in de zoekresultaten. Daarom is een robots.txt meestal de beste optie, immers de URL wordt niet gecrawld.

Het (snel) verwijderen van bestanden

Net zoals web pagina’s kunnen bestanden ook via de zelfde manier worden verwijderd. Hoewel de tool nog steeds heeft over “Pagina’s verwijderen en cachegeheugen” kunnen bestanden ook worden verwijderd via deze tool. Maar bij het non-HTML zoals afbeeldingen of PDF’s, horen de bestanden van de server te zijn verwijderd. Hoewel dit kan verschillen per server is het gebruikelijk dat de server na het verwijderen een 404 (not found) geeft, maar een 410 (gone) is ook mogelijk. Echter alle andere HTTP headers zijn niet optimaal.

Het is mogelijk, net zoals bij web pagina’s, om ook de robots.txt of de noindex te gebruiken maar omdat het hierbij vaak gaat over copyrights (een bestand die auteursrechten schaadt) wordt er aangeraden om de bestanden geheel van de server te verwijderen.

Het (snel) verwijderen van een directory

Naast de mogelijkheid om individuele pagina’s of bestanden te verwijderen kan de webmaster ook kiezen om een gehele folder of directory te verwijderen. Hiervoor is het wederom nodig dat de robots.txt wordt aangepast zodat Googlebot de content in de directory niet meer crawlt en indexeert. Door de robots.txt worden de URL’s geblokkeerd. Een voorbeeld kan zijn:

User-agent: *
Disallow: /categorie/

Hierdoor wordt de gehele folder verwijderd van de index en daardoor van de zoekresultaten.

directory verwijderen in GWTOok hier is het mogelijk om een 404 (not found) of noindex te gebruiken.

Wanneer de removal tool te gebruiken

De removal tool is een zeer krachtige functie in GWT en het is mogelijk om een gehele web site te verwijderen van Google’s zoekresultaten. Daarom gebruik ik deze functie alleen als er haast is. Bijvoorbeeld vanwege auteursrechten of omdat er op de web pagina persoonlijke informatie staat (zoals een e-mail adres) die daar niet hoort te staan. Met betrekking tot persoonlijke informatie is het vrij gebruikelijk dat de content van de web pagina wordt aangepast. Op dat moment is het niet nodig om gebruik te maken van een 404 (not found), robots.txt of noindex. In die situatie kan de webmaster gebruik maken van de optie “Pagina alleen verwijderen uit de cachegeheugen”. Hierdoor wordt de content van de web pagina uit de index gehaald en wanneer de web pagina wordt ge-re-crawld dan zal de vernieuwde content van de pagina weer worden toegevoegd aan de index.

Screenshot: cachegeheugen verwijderen via Google's hulpprogramma voor webmasters

 

Op deze manier wordt content snel van Google Search verwijderd. En daarom is deze actie alleen nodig als er haast is.

Bekijk ook mijn andere artikelen over “Optimalisatie” in GWT:

Sitemaps – HTML-verbeteringen – Contentzoekwoorden – Gestructureerde gegevens – Gegevens Markeren

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>