Co-Occurrence?

Banner co-occurrence

Allereerst kijken we naar wat co-occurrence is. Aan de hand van een patent kijken hoeco-occurrence gebruikt kan worden voor zoekmachines. En of het een ranking signal is.

Co-occurrence is een relatief nieuw begrip in zoekmachine optimalisatie. Vaak wordt co-occurrence samen met co-citation genoemd. In de afgelopen jaren is er veel gediscussieerd over deze twee begrippen en of en hoe Google dit gebruikt. Echter door de invoering van de “knowledge graph” en de “knowledge panel” lijkt het dat Google co-occurrence gebruikt. In dit artikel kijk ik alleen naar co-occurrence in taal. Dat wil zeggen, co-occurrence wordt vaak gebruikt in andere gebieden. Bijvoorbeeld als iemand een economische recessie analyseert dan zal hij/zij ook kijken naar werkloosheid cijfers of koopkracht en hoe deze met elkaar in verbinding staan. Daar kijk ik hier niet naar omdat dit weinig relevant is voor zoekmachines. Ik kijk alleen naar co-occurrence van woorden, van woorden die samengaan met andere woorden.

 

Wat is co-occurrence?


In het kort is co-occurrence een serie van sleutelwoorden die regelmatig voorkomen wanneer erop een bepaald onderwerp wordt gezocht. Als een document over een bepaald onderwerp gaat dan gaat dit vaak gepaard met de zelfde woorden. Bijvoorbeeld (web) documenten over de Tour de France gaan vaak gepaard met worden over wielrennnen, de gele trui en de bolletjes trui. Dit zijn woorden die iets zeggen over het onderwerp om zo het onderwerp beter te begrijpen of woorden die samengaan met een bepaald onderwerp. Dit is iets anders dan synoniemen, omdat synoniemen het zelfde zeggen terwijl co-occurrence een onderwerp beter proberen uit te leggen of samengaan met het onderwerp. co-occurrence zijn met name sleutelwoorden die een relatie hebben met het onderwerp.

Een voorbeeld dat Google geeft in een patent over co-occurrence “Document ranking using word relationships” is [mockingbird]. Mockingbird is een liedje van Eminem maar een vogel. Voor beide zijn er web documenten te vinden maar de woorden die samengaan met het onderwerp “mockingbird de vogel” zijn anders dan de woorden die samengaan met “mockingbird het liedje”. Zoals al in de vorige zin naar voren komt is het nodig om beide totaal verschillende onderwerpen extra te duiden met extra woorden. In dit geval “de vogel” en “het liedje”. Nu komt ook naar voren in web documenten. Als we het hebben over “mockingbird de vogel” dan is het aannemelijk dat vogel en klank naar voren komen, terwijl bij “mockingbird het liedje” liedje, Eminem, nummer of songtekst naar voren komen. Beide onderwerpen hebben kenmerkende woorden die iets zeggen over het onderwerp en daaraan iets toevoegen of samen voorkomen met het onderwerp.

Het inschatten van een relatie tussen woorden

Laten verder kijken aan de hand van de patent “Document ranking using word relationships” hoe de relatie of co-occurrence kan worden gebruikt voor een zoekmachine. Allereerst begrijpen computer programma’s de samenhang tussen verschillende woorden niet. Met name, in taal zijn er nuances en diepere betekenissen die onbegrijpelijk zijn voor computer programma’s. Immers computer programma’s berekenen iets en taal laat zich moeilijk berekenen. Daarom gebruiken zoekmachines statistiek waarbij er wordt ingeschat wat het beste antwoord kan zijn. Met andere woorden, de woorden en samenhang wordt niet begrepen door zoekmachines maar door het schatten lijkt het alsof de zoekmachine het begrijpt.

Term frequency–inverse document frequency

Deze schatting wordt gedaan door een score te berekenen en theorie het web document met de hoogste waarde is het meest relevant. Maar voordat er een score kan worden berekend voor een web document moet er een soort normalisatie worden gedaan. Namelijk algemene woorden worden weg gefilterd. Hiervoor kan TFIDF (term frequency–inverse document frequency) gebruiken. Dit is een methode waarbij eerst het aantal keer dat een sleutelwoord in een document wordt geteld (in de simpelste vorm: term frequency) en daarna wordt er gekeken of het sleutelwoord vaak voorkomt, hierbij wordt er gekeken naar een index van web documenten en het aantal web documenten die het sleutelwoord bevatten (inverse document frequency).

Als we term-frequency in een (simpele) vergelijking zetten wordt vaak de augmented frequentie gebruikt om het effect van grote web documenten tegen te gaan, anders zou het grootste document de hoogste score krijgen. Dat wil het totaal aantal keer dat een sleutelwoord wordt vermeldt (weergegeven als f(d,t)) gedeeld door de sleutelwoord die het vaakst voor komt (weergegeven als max{ f(w, d) : Є d }):

augmented term frequency

Inverse document frequency kan worden gerekend door het totaal aantal documenten (weergegeven als |D|) of de totale index van documenten (zoals alle web pagina’s op het internet) te delen door het aantal documenten die het sleutelwoord bevatten (weergegeven als |{d Є D : t Є d}|):

inverse document frequency

 

Deze twee vergelijkingen kunnen met elkaar worden vermenigvuldigd en volgens de patent als een bepaalde drempel wordt bereikt dan wordt de sleutelwoord verwijderd.

De score en relatie tussen de documenten

De woorden die overblijven krijgen een score op basis van hoe dichtbij de woorden zijn met betrekking tot de sleutelwoord. Een woord dichtbij het sleutelwoord (in de zelfde zin of paragraaf) krijgt een lagere score, als een woord vroeg in een document wordt genoemd krijgt ze een lagere score of de positie van de eerste keer dat een woord wordt genoemd in een document. Bijvoorbeeld als een woord in de zelfde zin is als het sleutelwoord dan is de score nul, of als een woord de in volgende zin staat ten opzichte van het sleutelwoord dan is de score één. Door de score krijgen worden de woorden en het sleutelwoord

Nadat alle woorden in een document een score hebben wordt de relatie tussen de documenten bepaald. De relatie tussen de verschillende documenten worden gevonden door de paren van geselecteerde woorden te identificeren. Op basis van deze relatie kan een “document relationship graph” worden opgesteld. Vanuit deze grafiek kan een score worden gemaakt voor een web document maar dit kan ook een aanvulling zijn op de link grafiek (PageRank).

schema relatie tussen documenten

De voordelen van deze manier zijn (onder andere):

  • Voor onduidelijke zoekopdrachten kunnen meer diverse zoekresultaten worden gepresenteerd.
  • De volgorde van de zoekresultaten kunnen worden aangepast zodat er meer diverse informatie wordt gegeven.
  • Een relatie tussen verschillende web documenten kan worden vastgesteld zonder dat er links onderling zijn.

 

Tot slot,


Naar alle waarschijnlijkheid wordt deze methode niet op deze manier gebruikt. Maar het is duidelijk dat Google niet alleen kijkt naar links. Of tenminste ik kan zeggen dat Google naar mogelijkheden kijkt die niet direct of een aanvulling zijn op PageRank. Ook is dit niet de enige patent die gaat over co-occurance. In tegen stelling, er zijn er veel meer. Maar dit geeft naar mijn mening goed weer dat co-occurance kan worden gebruikt om voor zoekopdrachten meer informatie weer te geven en eventueel deze te herschikken op basis van de document relationship graph (die een aanvulling kan zijn op link grafiek). En het lijkt erop dat de knowledge graph dit ongeveer doet. Maar dat is speculatief en er is veel meer te vertellen over co-occurance en hoe dit mogelijk kan worden gebruikt in zoekmachines.

Daarom is het meer iets om over na te denken en niet iets waar een webmaster direct iets aan kan doen. Aan de andere kant als marketeer lijkt het zinvol om een duidelijk eenduidig bericht te geven zowel in de offline wereld als in de online wereld. Immers het kan voorkomen dat het bedrijf ooit daarvoor beter naar voren kan komen op de zoekmachines.

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>