Substituut in plaats van co-occurrence

Substituut

Co-occurrence, synoniemen en nu substituten als een manier voor zoekmachines om zoekopdrachten in context te plaatsen. Dit betekend niet dat sleutelwoorden zinloos zijn, in tegenstelling, sleutelwoorden worden gebruikt om een documenten beter te begrijpen.

In mijn vorige artikelen heb in gekeken naar synoniemen, woorden die het zelfde betekenen, en co-occurrence, dit zijn woorden in in samenhang met een bepaald woord wordt gebruikt. Maar er is nog een manier waarop zoekmachines de intentie van een zoekopdracht beter kunnen begrijpen. Dat wil zeggen, zoekmachines zoals Google proberen op basis van een index van het internet en op basis van het gedrag van haar gebruikers om te begrijpen wat de gebruiker precies bedoeld met een bepaalde zoekopdracht. Met andere woorden hier zal ik kijken naar een manier voor zoekmachines om zoekopdrachten (quiries) in context te plaatsen. Hiervoor kijk naar de patent: Evaluation of substitute terms.

Wat is een substituut woord, en hoe kan een zoekmachine dit gebruiken?


In de economische theorie word een substituut gezien als een product die gemakkelijk door consumenten wordt omgeruild voor een ander product. Denk bijvoorbeeld aan de vraag voor Coca-Cola en de vraag voor Pepsi. Veel consumenten ruilen van merk als de prijs van het ene merk omhoog gaat. Ongeveer het zelfde zijn substituut woorden. Dit zijn woorden die kunnen worden omruilt zonder dat de betekenis wegvalt.

Een substituut woord is een woord dat in plaats van een woord kan worden gebruikt. Dit anders dan een synoniem omdat een synoniem een ander woord is met de zelfde betekenis. Terwijl bij een substituut woord een woord is die lijkt op het woord en in plaats van dat woord kan worden gebruikt. Het voorbeeld dat de patent Evaluation of substitute terms is [french open] tegenover [frenchopen]. Beide zoekopdrachten lijken op elkaar en voor een mens is het duidelijk dat beide het zelfde zijn en een substituut zijn. Echter voor een computer programma is dit niet duidelijk, namelijk een ander voorbeeld uit de patent is [warrent] tegenover [warrenty]. Beide zoekopdrachten lijken op elkaar en voor een mens is het duidelijk dat ze niet het zelfde zijn en geen substituut voor elkaar zijn. En dat is het probleem voor zoekmachines, namelijk computer programma’s kunnen woorden met elkaar vergelijken en beoordelen of ze letterlijk op elkaar lijken maar ze kunnen niet beoordelen of beide zoekopdrachten het zelfde zijn of, met andere woorden, of een zoekopdracht een substituut is voor een andere.

Co-occurence kan helpen bij het vinden van substituut woorden


Co-occurence zijn woorden die samen met een ander woord worden genoemd. Bijvoorbeeld voor frenchopen gaat gepaard met tennis, tennisbaan of kampioenschap. Op dat moment kan een computer programma de frequentie berekenen over hoe vaak een woord voorkomt samen met een ander woord. Door de co-occurence frequenties van de verschillende woorden met elkaar te vergelijken kan er worden vast gesteld of een woord een substituut is. Een schema die wordt gegeven in de patent is:

Schema voor substituut vectoren

 

Omdat de co-occurence frequentie tussen [frenchopen] en [french open] hoog is kunnen beide gekwalificeerd worden als een substituut voor elkaar. En hieruit kunnen substituut regels worden opgesteld.

Met andere woorden, er worden (minimaal) twee vectoren opgesteld voor een zoekopdracht op basis van een co-occurrence frequentie, deze vectoren worden met elkaar vergeleken, als beide overeenkomen worden ze gekwalificeerd als substituut. Waarna dit kan worden toegevoegd aan de substituut regel database. Deze regel kan eventueel worden gebruikt voor de “substitute term engine”.

Een substituut is niet altijd geldig


Het kan voorkomen dat voor bepaalde zoekopdrachten een substituut zinvol is maar dat de zoekopdracht ook totaal iets anders betekend. Het voorbeeld dat de patent geeft is [cats]. Een substituut voor [cats] is [felines] maar ook [cats] de populaire musical zijn. In de patent wordt er geen oplossing geboden voor dit probleem, maar er wordt wel gesuggereerd dat andere elementen/functies van een zoekmachine de substituut regel kan minderen of niet worden gebruikt.

Als ik zelf kijk naar de zoekresultaten van [cats] op google.com dan wordt eerst de suggestie gegeven om de zoekopdracht duidelijker te maken. Namelijk de suggesties zijn [cats animal] en [cats musical]. Op die manier probeert de zoekmachine een duidelijkere zoekopdracht krijgen waardoor de zoekmachine betere zoekresultaten kan geven. Als de gebruiker toch verder gaat dan wordt cats de musical in de zoekresultaten vermengt en wordt er ook cats de musical ook als alternatieve zoekopdracht aangeboden.

Alternatieve zoekopdracht voor [cats]

Substituut is het einde van sleutelwoorden? Zijn zoekmachines nu zo slim dat sleutelwoorden niet meer uitmaken?


Betekend dit dat een webmaster, iemand die de content op een web pagina schrijft, plaatst of optimaliseert, geen rekening meer hoeft te houden met sleutelwoorden? Met andere woorden, is het onderzoeken of de sleutelwoorden waarvoor iemand gevonden wil worden op zoekmachines niet meer nodig is? Dat staat niet in deze patent. In tegen stelling, de vectors die worden opgesteld worden op basis van een bepaald sleutelwoord of zoekopdracht gedaan. Aanvullend wordt er gekeken welke woorden er samen met dit sleutelwoord worden genoemd op een bepaalde (web) document. Met andere woorden, er wordt niet alleen gekeken naar één enkel sleutelwoord maar ook naar de samenhang tussen verschillende sleutelwoorden. Deze co-occurrence is een manier om een (web) documenten te gebruiken om een sleutelwoord in context te plaatsen. En dit is, naar mijn mening, de sleutel:

Een sleutelwoord waarvoor een web site naar voren wil komen op een zoekmachine horen op de web pagina te staan, maar moet wel in context zijn. Dat wil zeggen, zo maar een sleutelwoord op een web pagina plaatsen terwijl het over iets anders gaat is onzinnig. Ook betekend dit dat een sleutelwoord niet alleen genoemd moet worden. In tegenstelling, het sleutelwoord hoort samen te gaan met andere sleutelwoorden om op die manier aan te geven dat een web pagina over een specifiek onderwerp gaat. Daarnaast is het een meer natuurlijke manier van schrijven. Bijvoorbeeld als een webmaster een product wil aanbieden dan leest het heel raar en onnatuurlijk als er geen gebruik wordt gemaakt van andere woorden.

Een reachtie op “Substituut in plaats van co-occurrence”

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>