Gebruiker:Muskee01/Metadateerrobot/Logs en Metadata: verschil tussen versies

Uit Kennisnet Developers Documentatie
Naar navigatie springen Naar zoeken springen
(Nieuwe pagina aangemaakt met 'Het eerste doel voor de query logs en metadata is het vinden van trefwoord-vakgebied combinaties. Specifieker zijn benieuwd naar de mate waarin een trefwoord het va...')
 
k
Regel 11: Regel 11:
   
 
Ook de interpretatie van de zoektermen als trefwoorden blijkt lastig. Sommige portals maken expliciet gebruik van een zoekterm bijv. "anne frank", terwijl andere portals dit interpreteren als "anne AND frank". De vraag is of we ze verschillend interpreteren of juist niet, in het geval van "anne frank" duidelijk als een trefwoord, maar bij "geschiedenis AND willem AND van AND oranje" is dit minder evident.
 
Ook de interpretatie van de zoektermen als trefwoorden blijkt lastig. Sommige portals maken expliciet gebruik van een zoekterm bijv. "anne frank", terwijl andere portals dit interpreteren als "anne AND frank". De vraag is of we ze verschillend interpreteren of juist niet, in het geval van "anne frank" duidelijk als een trefwoord, maar bij "geschiedenis AND willem AND van AND oranje" is dit minder evident.
  +
  +
Ook zullen we in de toekomst rekening moeten houden met het querygedrag van de verschillende zoekportalen. Er zijn namelijk portalen die meerdere queries doen voor 1 zoekopdracht van een eindgebruiker.

Versie van 12 mrt 2014 09:58

Het eerste doel voor de query logs en metadata is het vinden van trefwoord-vakgebied combinaties. Specifieker zijn benieuwd naar de mate waarin een trefwoord het vakgebied kan voorspellen.

Edurep Query Logs Edurep als zoekmachine wordt de hele dag bevraagt met allerlei queries. In een groot aantal daarvan wordt gezocht naar een bepaald trefwoord binnen een bepaald vakgebied. Daarmee is er een bepaalde relatie gelegd tussen dit trefwoord en het vakgebied. Vooralsnog is het een doel om deze relaties uit de queries te halen.

Edurep Records Een groot aantal van de metadata in Edurep bevat 1 of meerdere trefwoorden en vakken. Hiermee zijn er expliciete relaties tussen trefwoorden en vakgebieden beschikbaar. Ook hierbij is het doel deze uit uit de metadata te extraheren.


Bij het parsen van de datasets blijkt dat elke set unieke problemen heeft. Zo hebben in de metadata set te maken met lege en niet-bestaande xml elementen. In de query logs zijn er soms buitengewone complexe queries waarbij het ingewikkeld is om losse trefwoorden te scheiden van een of meer vakgebieden.

Ook de interpretatie van de zoektermen als trefwoorden blijkt lastig. Sommige portals maken expliciet gebruik van een zoekterm bijv. "anne frank", terwijl andere portals dit interpreteren als "anne AND frank". De vraag is of we ze verschillend interpreteren of juist niet, in het geval van "anne frank" duidelijk als een trefwoord, maar bij "geschiedenis AND willem AND van AND oranje" is dit minder evident.

Ook zullen we in de toekomst rekening moeten houden met het querygedrag van de verschillende zoekportalen. Er zijn namelijk portalen die meerdere queries doen voor 1 zoekopdracht van een eindgebruiker.