Niet te indexeren content en rijke media

is web video te indexeren?

Content is vaak wel te crawlen maar soms niet. Hierbij gaat het om rijke media zoals video's en afbeelding. In GWT komt naar voren war Googlebot kan vinden.

Niet altijd is content te crawlen en daardoor is de content ook niet te indexeren. In Google’s hulpprogramma voor webmaster kan dit naar voren onder HTML-verbeteringen en “Inhoud die niet is te indexeren”. Nu heb ik al over de functie HTML-verbeteringen geschreven en hier ga ik kijken naar de meest voorkomende rede waarom bepaalde content niet te indexeren is. In beginsel is dit rijke media zoals afbeeldingen of video’s (Flash of Silverlight).

Inhoud die kan worden geïndexeerd

Content die Googlebot niet kan crawlen kunnen ook niet geïndexeerd worden. Hoewel Googlebot één van de meest geadvanceerde crawlers is kan het voorkomen dat Googlebot bepaalde content niet kan crawlen. De volgende bestanden kan Googlebot wel crawlen:

  • Adobe Flash (.swf)
  • Adobe Portable Document Format (.pdf)
  • Adobe PostScript (.ps)
  • Autodesk Design Web Format (.dwf)
  • Google Earth (.kml, .kmz)
  • GPS eXchange Format (.gpx)
  • Hancom Hanword (.hwp)
  • HTML (.htm, .html, other file extensions)
  • Microsoft Excel (.xls, .xlsx)
  • Microsoft PowerPoint (.ppt, .pptx)
  • Microsoft Word (.doc, .docx)
  • OpenOffice presentation (.odp)
  • OpenOffice spreadsheet (.ods)
  • OpenOffice text (.odt)
  • Rich Text Format (.rtf, .wri)
  • Scalable Vector Graphics (.svg)
  • TeX/LaTeX (.tex)
  • Text (.txt, .text, en andere extensies), inclusief de broncode van gebruikelijke programmeer talen:
    • Basic source code (.bas)
    • C/C++ source code (.c, .cc, .cpp, .cxx, .h, .hpp)
    • C# source code (.cs)
    • Java source code (.java)
    • Perl source code (.pl)
    • Python source code (.py)
  • Wireless Markup Language (.wml, .wap)
  • XML (.xml)

Men kan in beginsel zeggen dat Googlebot alles kan crawlen zolang er tekst elementen in het bestand zitten. Zo kan Google heel goed links uit PDF’s halen. Maar als er gebruik wordt gemaakt van rijke media zoals afbeeldingen of video’s dan kan het zijn dat Google die niet goed begrijpt. Met name Flash en Silverlight kunnen een probleem zijn voor Googlebot.

Inhoud die soms niet kan worden geïndexeerd en rijke media

Googlebot is een tekst-cralwer en kan eigenlijk alleen de tekstgedeeltes in een bestand lezen. Hoewel er OCR-software (software die teksten kunnen lezen in afbeelding) bestaat gebruikt Google geen OCR-software om tekst uit een afbeelding te lezen. Maar Google gebruikt zeker OCR-software voor gebruikers van haar zoekmachine. Zo ondersteund Google sinds juli 2012 handgeschreven zoekopdrachten voor mobiele telefoons en tablets. Daarnaast betekend het niet dat een webmaster geen rijke media zoals video’s kan embedden op een web pagina. Natuurlijk kan dat en er is zeker geen penalty voor het gebruik van rijke media op een web pagina. In tegen deel, video’s en andere rijke media kunnen meer bezoekers trekken, ook vanuit zoekmachines. Laten we kijken naar verschillende soorten rijke media: Flash, Silverlight en video’s, iframes en afbeeldingen.

Flash en Silverlight en video

Googlebot kan Flash lezen en de verschillende tekst fragmenten gebruiken om een idee te krijgen van de web site. Deze tekst fragmenten gebruikt Google voor de zoekopdrachten. In Flash wordt vaak externe bestanden geladen zoals een XML bestand of een HTML bestand. Deze bestanden kan Googlebot volledig lezen en begrijpen. Daarom is het niet altijd nodig om speciale mark-ups te maken voor Googlebot. Immers Googlebot kan Flash en SWF bestanden crawlen en indexeren. Ook wordt de crawler steeds beter. Maar andere robots kunnen wel problemen hebben met het crawlen van Flash. Daarom wordt aangeraden om voor Googlebot zoveel mogelijk HTML te gebruiken en Flash tot het minimum te beperken. Maar een alternatieve manier waarbij een volledige HTML versie van een web site wordt gegeven is ook een mogelijkheid. Bijvoorbeeld bij een volledige Flash site is het mogelijk om een AJAX crawlschema te volgen. AJAX is een javascript die wordt gebruikt om interactieve web sites te maken en omdat het vrij onmogelijk is voor crawlers om AJAX te crawlen is er een speciale manier waarbij de webmaster een alternatieve versie aanbiedt van elke web pagina in standaard HTML. Om die manier kunnen zoekmachines de content makkelijk crawlen en indexeren. In de zoekresultaten wordt die rijke media URL weergegeven en niet de alternatieve versie. Ten minste als crawlschema goed is gevolgd. Dit kan getest in Google Webmaster Tools onder “fetch as Googlebot“.

In tegenstelling tot Flash is Silverlight (in het kort: de Flash versie van Microsoft) of andere (video) formats heeft Googlebot problemen met crawlen. En ik verwacht niet dat het ooit goed crawlable wordt mede omdat Silerlight niet erg populair is. In het kort, bij Silverlight of andere formats kan het voorkomen dat tekst en links niet worden gevonden door Googlebot. Nu is Googlebot vrij geavanceerd en andere bots hebben zeker moeite met crawlen. Daarom is het aanbieden van een alternatieve HTML eigenlijk de enige optie. Vaak kan de alternatieve HTML versie ook op de bestaande web pagina. Denk bijvoorbeeld aan een afschrift onder de video die embedded is op een web pagina.

Iframes

Iframes werden met name in het verleden veel gebruikt om navigatie elementen te laden. Echter de meeste zoekmachines behandelen iframes als een aparte pagina en crawlen die ook apart. Hierdoor kan het voorkomen dat niet relevante (navigatie) pagina’s worden geïndexeerd. Nu kan dit voorkomen worden door gebruik te maken van noindex maar tegenwoordig wordt het gezien als een vrij slechte optie. Daarom zo min mogelijk iframes of frames gebruiken.

Afbeeldingen

Zoals hierboven al gehint gebruikt Google geen OCR-software. Dat betekend dat tekst in een afbeelding niet gelezen wordt door de meeste zoekmachines. Daarom is het devies om voor tekst zoveel mogelijk HTML te gebruiken en geen gebruik te maken van afbeeldingen. Daarnaast zijn er alternatieven om tekst op een unieke manier aan te bieden. Webmaster kunnen gebruik maken van bijvoorbeeld Google Web Fonts. Voor afbeeldingen wordt het volgende aangeraden:

  • Gebruik een goed beschrijvende naam voor het bestand. Bijvoorbeeld niet afbeelding1.jpg maar zwarte-kitten.jpg.
  • Gebruik de alt attribuut. De alt attribute staat voor de alternatieve tekst voor de afbeelding. Bijvoorbeeld <img scr=”zwarte-kitten.jpg” alt=”zwarte kitten in doos en kijkt er boos” />.
  • Gebruik de bedrijfsnaam niet in de alt attribuut, tenzij de afbeelding het bedrijfslogo is. Als het echt niet anders kan de webmaster de bedrijfsnaam aan het einde van de alt attribuut zetten. De rede waarom dit, over het algemeen, wordt afgeraden is omdat zoekmachines de afbeelding meer hoog kunnen rangschikken als de bedrijsnaam als eerste wordt genoemd.
  • Net zoals de bedrijfsnaam geldt dit ook voor woorden als copyright.
  • Net zoals op een web pagina is het tegen de richtlijnen van de zoekmachines om de alt tekst vol te zetten sleutelwoorden. Dus voorkom keyword stuffing.
  • Als de webmaster linkt naar de web pagina met afbeeldingen gebruik een beschrijvende anker tekst. Deze anker tekst helpt zoekmachines bij het begrijpen van de content. Bijvoorbeeld <a href=”http://example.com/kittens.html>Mijn kitten galerij</a>.
  • Voeg tekst rondom de afbeeldingen. De tekst rondom de afbeelding wordt gebruikt als een signaal voor zoekmachines over wat erop de web pagina aanwezig is.

Tot slot,

Rijke media is zeker te gebruiken als webmaster voor zoekmachines. En zolang de focus op de eindgebruiker ligt dan is het zeker goed om rijke media te gebruiken. Maar als het niet nodig is om rijke media te gebruiken dan is HTML de beste keuze. En samen met moderne oplossing zoals Google Web Fonts is dat tegenwoordig een mogelijkheid. Als het niet anders kan dan is een alternatieve versie aan te raden. Bij het embedden van een rijke media zoals een afbeelding of video is het gebruikelijk om rondom de rijke media iets in HTML te vertellen. Kortom geef zoveel mogelijk informatie over de rijke media in HTML. Tot slot, zijn er ook specifieke Sitemaps voor bijvoorbeeld afbeeldingen.

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>