Co-occurrence, subsituten en synoniemen in één algoritme?

Co-occurrence, substituut, synoniem

Co-occurrence, substituten en synoniemen zijn begrippen die vaak voorkomen op artikelen over zoekmachine optimalisatie. Maar zoekmachines zelf geven weinig informatie. Hier zal ik aan de hand van een patent van Google kijken hoe deze begrippen aan elkaar gelinkt kunnen worden.

In mijn vorige artikelen heb ik gekeken naar co-occurrence, substituut woorden en synoniemen aan de hand van patenten van Google. Hier zal ik kijken naar hoe deze gezamenlijk gebruikt kunnen worden. Hoewel patenten niet betekenen dat deze worden gebruikt, geeft het wel een indicatie over hoe de mensen achter de zoekmachine denken over hoe een zoekmachine moet functioneren. Daarnaast laat Google weinig los over synoniemen, substituten en co-occurrence. Daarom moeten we wel kijken naar patenten om een idee te krijgen.

Het probleem van lange zoekopdrachten en hoe de lengte ervoor kan zorgen dat dit opgelost wordt

Het algemene probleem die de verschillende patenten over co-occurrence, substituut woorden en synoniemen proberen op te lossen is om de zoekopdracht beter te begrijpen. Dat wil zeggen, ze proberen de zoekopdracht in context te plaatsen. Met name de patent: “Synonym identification based on co-occurring terms“, geeft een voorbeeld van lange zoekopdrachten en probeert door middel van synoniemen en co-occurrence er achter te komen wat de gebruiker bedoeld.

What is the best place to find and eat Chicago deep dish style pizza?Het probleem wat de patent probeert op te lossen zijn zoekopdrachten zoals [What is the best place to find and eat Chicago deep dish style pizza?]. Namelijk “restaurant” wordt niet genoemd terwijl “place” wel wordt genoemd. Het probleem is om uit zoekopdracht te begrijpen dat voor de gebruiker “place” en “restaurant” het zelfde zijn, met andere woorden een synoniem. Ten tweede kan een synoniem machine door te kijken naar “best” en “to” in combinatie met “Chicago” en “pizza” een betere voorspelling doen dat in deze zoekopdracht “place” voor “restaurant” kan worden gebruikt. Met andere woorden, doordat “best place”, “place to”, “Chicago” en “pizza” op het internet vaak samen gaan met het woord “restaurant” kan “place” voor “restaurant” worden aangemerkt. Dus door gebruik te maken voor co-occurrence kan een zoekmachine de zoekopdracht beter begrijpen. Ten derde, doordat “place” samen met “pizza” wordt genoemd kan “place” worden verruilt met “restaurant”. Met andere woorden, doordat in de zoekopdracht “place” samen met andere woorden wordt genoemd en deze woorden vaak op het internet samengaan is er een substituut regel. In nog andere woorden, door gebruik te maken van substituut woorden, kan “place” verruilt worden met “restaurant”.

Deze patent probeert door middel van synoniemen, substituut woorden en co-occurrence de zoekopdracht beter in context te plaatsen en daardoor betere zoekresultaten te geven. Alle drie de termen/ideeën worden gebruikt om betere resultaten te geven. Of de synoniem machine die kijkt naar synoniemen, substituten en co-occurrence is een manier om de zoekopdracht beter te begrijpen en daardoor betere zoekopdrachten weer te geven.

Het model om co-occurence, substituut woorden, synoniemen tot één te maken

Schema Synonym identification based on co-occurring terms

De zoekmachine ontvangt een zoekopdracht en kan de zoekopdracht (query) herzien en deze naar de zoekopdracht herzien machine sturen (query reviser engine). De query reviser engine stuurt de zoekopdracht op haar beurt door naar de synoniem machine (synonym engine). De synoniem engine bekijkt aan de hand van zoekopdracht logs, synoniem regels, aangrenzende context en de drijvende context of er sprake is van een kandidaat synoniem. De aangrenzende context (adjacent context) is een database met woorden die samen met een woord veel voorkomen in web documenten. De drijvende context (floating context) is een database van woorden die samen met het woord voorkomen op het internet maar niet direct aangrenzen. Deze woorden komen bijvoorbeeld voor in de zelfde zin of paragraaf. De synoniem regels is een database en zijn niet alleen synoniemen die op basis van Statistical Machine Translation maar ook substituut regels.

De synoniem engine beoordeeld de woorden of onderdelen van de zoekopdracht die ze krijgt van de query reviser engine en wijst een betrouwbaarheidswaarde toe en stuurt deze terug naar de query reviser engine als kandidaat synoniemen. De kandidaat synoniemen worden op basis van de betrouwbaarheidswaarde beoordeeld en als er een bepaalde drempel wordt gehaald dan kan de query reviser engine een zoekopdracht herzien. Deze herziening wordt door gegeven aan de front-end zoekmachine. Met andere woorden, dit is niet de zoekmachine maar een onderdeel van een zoekmachine. Dit onderdeel heeft tot doel om de zoekopdracht beter te begrijpen.

Waar is de co-occurrence?

Synoniemen en substituut woorden worden meerdere malen genoemd maar co-occurrence wordt bijna niet benoemd in de patent. Hoewel deze niet benoemd wordt en alleen in de titel van de patent wordt genoemd heeft het er alle schijn van dat co-occurrence in de synoniem engine zit. Of, met andere woorden, als ik tussen de regels dan lees ik overal co-occurrence. In het kort is co-occurrence een serie van sleutelwoorden die regelmatig voorkomen wanneer erop een bepaald onderwerp wordt gezocht. In de patent komen twee begrippen voor die ik hieraan kan linken. Allereerst aangrenzende context (adjacent context), wat een database is van woorden die geen synoniemen en geen substituut woorden zijn maar woorden die “direct” of aangrenzend aan een woord voorkomen in een index van web documenten. Ten tweede, drijvende context (floating context), wat een database is van woord paren die voorkomen in een index van web documenten en niet aangrenzen maar wel voorkomen in de paragraaf of zin. Daarnaast wordt co-occurrence gebruikt om synoniemen/substituten te vinden. Dus co-occurrence wordt wel degelijk genoemd in deze patent maar niet expliciet.

Tot slot,

Omdat deze patent begint met een voorbeeld zoekopdracht die op een specifieke stad is gericht kan ik suggereren dat dit van belang is voor het optimaliseren van lokale bedrijven. Of co-occurrence is belangrijk voor lokalisatie. Nu wordt dit niet vaak genoemd door zoekmachines. En de consensus tussen SEO-ers (professionals die web sites optimaliseren voor zoekmachines) is dat co-occurence belangrijk is, zeker voor lokale zoekmachines. Daarom is het van belang dat lokale bedrijven het zelfde bericht consistent moeten uitdragen. Met andere woorden, probeer de naam, adres en telefoonnummer het zelfde te zijn op alle web sites, zoals kvk.nl, Google Maps, enzovoort. Aan de andere kant geeft deze patent ook de suggestie dat het niet de bedoeling is om steeds precies het zelfde verhaal op te schrijven. Immers door synoniemen, substituut woorden en co-occurrence kunnen verschillende (sleutel)woorden aan elkaar gelinkt worden en daardoor voor een zoekopdracht voorkomen terwijl de sleutelwoorden niet voorkomen op de web pagina/document. In nog andere woorden, probeer op een natuurlijke manier gebruik te maken van platformen op het internet.

Geef een reactie

Uw e-mail adres wordt niet gepubliceerd.

*
*

De volgende HTML tags en attributen kunnen worden gebruikt: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>