Het semantische web

semantische web links en nodes

Het semantische web is een proces die al tientallen jaren aan de gang is. Door zoekmachines wordt het web van data steeds populairder. Maar wat betekend semantiek voor een netwerk?

In mijn vorige artikelen heb ik het semantische web zijdelings genoemd. Zoals bij Gestructureerde gegevens of Structured Data Tool. In dit artikel zal ik verder inhoudelijk kijken naar het semantische web. Allereerst een korte geschiedenis over het semantische web, wat het begrip betekend, en de knooppunten die het netwerk vormen. Daarna kijken we naar HTML, waar we zien dat semantiek en HTML vanaf het begin af aan al aanwezig is en in HTML5 deze is uitgebreid maar nog steeds beperkingen heeft, welke kunnen worden opgelost met additionele bestanden of additionele HTML opmaak. Tot slot, eindigen we met twee nadelen die vaak genoemd worden als het over semantische web gaat. 

Het begrip semantische web in vogelvlucht

Het begrip semantische web is niet van vandaag. In tegenstelling het is een relatief oud begrip. Namelijk in de jaren 1960 hebben verschillende auteur/onderzoekers hierover al gepubliceerd. Deze onderzoekers hebben vaak ook een achtergrond in taal. Dit komt omdat semantiek een studie is naar de betekenis of betekenisleer. Semantiek richt zich tot het duiden van woorden, zinnen of symbolen en het in context te plaatsen. Het is daarom een term die kijkt naar wat er bedoeld wordt met een bepaalde opzet en er een logica aan te verbinden (soms is dit niet het geval maar voor het semantische web is dit wel geldig).

Op web pagina’s of web documenten zien we semantiek naar voren komen doordat de lettertype groter is, zoals bij een heading, of dat een zin schuin staat. Hierdoor wordt data doorgegeven. Immers een heading geeft in het kort aan waarover de paragraaf gaat of het geeft aan wat het onderwerp is die zal worden behandeld in de paragraaf, maar het semantische web beperkt zich niet alleen tot HTML (hierover later meer). In het kort word het semantische web omschreven als het web van data in plaats van het web van informatie. Namelijk het doel van het semantische web is om web documenten begrijpelijk te maken voor robots of computer programma’s terwijl het web van informatie in beginsel alleen begrijpelijk is voor mensen. In 2001 wordt het probleem omschreven als, in The Semantic Web:

Most of the Web’s content today is designed for humans to read, not for computer programs to manipulate meaningfully

Met andere woorden, het semantische web probeert web documenten voor software toegankelijk te maken zodat deze software programma’s betere/relevantere informatie kan aanbieden.

Knooppunten vormen samen een semantische netwerk

Het semantische web staat niet los van het internet, in tegenstelling, het vormt een onderdeel van het internet. Net zoals afbeeldingen een onderdeel zijn, is data ook een onderdeel van het wereldwijde internet. Omdat het internet een decentrale netwerk is, is het semantische web ook decentraal. Dat wil zeggen, er is geen centrale plaats waar de informatie/data staat. In tegen stelling, een semantische netwerk is een de-centrale systeem waar verschillende knooppunten (of nodes) elkaar voorzien van data. Onderzoekers gebruiken hier vaak de analogie met het menselijke geheugen, waarbij verschillende woorden aan elkaar gelinkt zijn en daardoor meer betekenis geven. Het voorbeeld die What Are Semantic Networks? A Little Light History gebruikt is om de weg te vinden van Picadilly Circus naar Trafalgar Square.

Piccadilly Circus 1896

Piccadilly Circus (1896) is een knooppunt en zeker in die tijd was een goed geheugen om de weg te vinden.

We kunnen de weg naar Picadilly Circus vinden omdat het geheugen weet hoe van Picadilly Circus naar Charing Cross te komen en van Charing Cross naar Trafalgar Square. En daarmee heeft het geheugen als het ware een indeling (kaart) gemaakt van verschillende locaties en die worden aan elkaar gekoppeld zodat de route wordt gevonden. Met andere woorden, we gaan niet in alle richtingen zoeken om er achter te komen welke route we kunnen nemen. In plaats daarvan kijken we naar wat we weten en proberen op die manier de route te vinden. Dus door verschillende knooppunten kan het menselijke geheugen verschillende begrippen aan elkaar verbinden en beter begrijpen. Het semantische web/netwerk werkt ook op die manier dat verschillende knooppunten telkens additionele data geven over een begrip en door die data samen te voegen wordt het begrip duidelijker en geeft de additionele data meer betekenis aan het begrip.

HTML, HTML5, gestructurende data en de semantiek

Al vanaf het begin van HTML welke op 2 november 1992 werd gepubliceerd is er sprake van een semantiek. Zo worden al heading tags gebruikt (H1, …, H6), waarbij H1 (heading 1) de hoogste level is, en het wordt aangeraden om de tekst (hypertext node) te beginnen met, de H1. Maar H1 hoort niet gebruikt te worden als de titel van een HTML document, in tegenstelling, het advies is om een meer algemenere titel te gebruiken voor de specifieke title tag. Met andere woorden, er wordt een logica gebruikt over hoe een HTML bestand geschreven zou moeten worden. En dit is semantische manier van het opstellen van een HTML bestand. Een duidelijker voorbeeld van semantische HTML is de tag <i> tegen over <em>, waar <i> voor italics (cursief) staat en <em> voor emphasis (nadruk). Beide geven in web browser een schuingedrukte tekst. Echter cursief zegt niet niks over hoe belangrijk de schuingedrukte tekst is, terwijl nadruk wel aangeeft dat de specifieke tekst belangrijker is. Dus <em> is semantisch gezien een betere optie dan <i> omdat het meer verteld over de inhoud van de tekst.

HTML5 en semantiek

HTML5 is de nieuwe standaard voor web pagina’s. Het is de vijfde revisie van de HTML standaard en het is niet alleen de opvolger voor HTML4 maar ook voor andere standaarden zoals xHTML. HTML5 voegt een aantal elementen bij elkaar. Bijvoorbeeld een plugin voor video is niet meer nodig. Maar hier zal ik mij beperken tot de semantiek. Zoals we hierboven al hebben gezien zit er een bepaalde semantiek in HTML. HTML5 vergroot de semantiek door generieke blokken (zoals <div>) of inline elementen (<span>) te vervangen door blokken die meer betekenis geven. Bijvoorbeeld:

  • Veel web pagina’s hebben een gedeelte waar de gebruiker kan navigeren naar andere onderdelen van de web site. In plaats van een <div> kan men gebruik maken van <nav>.
  • De footer is vaak een vast onderdeel van een web site en hiervoor kan men op de web pagina <footer> gebruiker.
  • De header is ook meestal een vast onderdeel van een web site en men kan <header> gebruiker.

We zien dat deze tags gebruikt worden om aan te geven dit vaste onderdelen zijn en deze worden meestal in een web site telkens op de zelfde manier gebruikt. Of met andere woorden, hierdoor wordt aangegeven wat de boilerplate is van een web pagina. De boilerplate zijn de onderdelen op een web pagina die constant zijn op een web site, dit is de HTML code die constant op de verschillende web pagina’s in een web site herhaald worden.

HTML, microdata en andere gestructureerde data

HTML is wel gelimiteerd. Bijvoorbeeld neem een product zoals “HP Chromebook 14 inch laptop, model xz1234, van 999 Euro voor 899 Euro“. Hierin staat veel data, namelijk de fabrikant is HP, het besturingssysteem is Chromebook, de beeldgrootte is 14 inch, het model is xz1234, de retail prijs  is 999 Euro, de aanbiedingsprijs is 899 Euro en de valuta is Euro.

Vrouw uit van de VS gebruikt een keypunch circa 1940

Het markeren van microdata lijkt een moderne manier van de keypunch, zoals deze vrouw rond 1940 doet.

Mensen begrijpen dat al die informatie in de zin staat, echter in de HTML code komt dit niet naar voren. Daarom zijn er web oplossingen om deze data naar voren te laten komen. Een manier is microdata waarbij verschillende elementen op een web pagina worden gemarkeerd. De verschillende elementen worden geannoteerd. Een populaire schema voor microdata is schema.org. Maar microdata is niet het enige, Resource Description Framework (RDF) is ook een manier, waarbij de data niet in de HTML hoeft te zijn. In beginsel, is RDF in XML formaat (er zijn voorstellen voor json) maar het is ook overgezet naar HTML waarbij men attributen kan toevoegen in HTML. Deze manier heet  Resource Description Framework in Attributes (RDFa). Met andere woorden, er zijn verschillende manieren om de semantiek van HTML te vergroten door of andere bestanden eraan te linken (RDF) of door de HTML uit te breiden met een schema (microdata of RDFa).

Tot slot,

Eén van de nadelen die vaak genoemd wordt met het semantische web is censuur en het verlies van privacy. Namelijk door een volledig geoptimaliseerde semantische web is het makkelijker voor overheden en bedrijven om data te verzamelen. En deze data kan over een persoon zijn. Een voorbeeld waar het duidelijk naar voren komt dat data aan een bepaalde persoon wordt gelinkt is Google’s auteurschap. Het is mogelijk om een web pagina via rel author te linken aan je Google profiel. De rel author betekend dat de web pagina een relatie (rel), die van auteur (author), met de Google profiel. Het is als het ware een digitale handtekening. Maar dit betekent wel dat die persoon aan bepaalde content word gekoppeld, en de Google profiel wordt als het ware een knooppunt, verschillende web sites kunnen via rel author aangeven dat het over één en de zelfde persoon gaat, om data te vinden over deze persoon. Voor een individu kan me het voorstellen dat men voorzichtig is, zeker met betrekking tot persoonlijke gebeurtenissen. Maar dit kan ook in het voordeel werken van een individu, namelijk, door deze digitale handtekening kan de individu ook aangeven in welke sectoren hij/zij een expert is.

Een ander nadeel van het semantische web is dat veel tijd en middelen kost terwijl het weinig oplevert. Immers een web pagina wordt in beginsel voor mensen gemaakt. Het doel van een web pagina is om mensen van informatie te voorzien en daar een aantrekkelijke waarde propositie te geven. Bijvoorbeeld een e-commerce web site probeert door middel van mooie en duidelijke product pagina’s de bezoeker te verleiden om het product te kopen. Het toevoegen van RDFa of microdata heeft weinig zin voor de bezoeker, het geeft geen toegevoegde waarde aan de bezoeker. Echter zoekmachines gebruiken deze data om in de zoekresultaten rijke snippets naar voren te brengen. Hierdoor kan de click-trough-rate toenemen. Google begon in 2009 al met het toevoegen van rijke snippets. Echter sinds de introductie van schema.org in 2011, de ondersteuning van de verschillende zoekmachines (Google, Bing, Yahoo en later Yandex), en de uitbreiding van rijke snippets in de zoekresultaten heeft er toe geleidt dat de semantische web steeds verder ontwikkeld wordt omdat er voor de verschillende web sites voordelen zijn, namelijk het vergroten van de zichtbaarheid op zoekmachines. Maar het blijft altijd de vraag of het waard is om een mark-up toe te voegen. Verder is het ook moeilijk om te bepalen of de investering in gestructureerde mark-up het gewenste rendement heeft.

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>