Gebruiker:Muskee01/Metadateerrobot/Eerste Collectie

Uit Kennisnet Developers Documentatie
< Gebruiker:Muskee01‎ | Metadateerrobot
Versie door Muskee01 (overleg | bijdragen) op 3 jun 2014 om 14:46 (Nieuwe pagina aangemaakt met 'Nu het mogelijk is om voor elk trefwoord de gekoppelde vakgebieden op te vragen, is het mogelijk om een poging te wagen om een collectie van vakgebied informatie te...')
(wijz) ← Oudere versie | Huidige versie (wijz) | Nieuwere versie → (wijz)
Naar navigatie springen Naar zoeken springen

Nu het mogelijk is om voor elk trefwoord de gekoppelde vakgebieden op te vragen, is het mogelijk om een poging te wagen om een collectie van vakgebied informatie te voorzien op basis van de trefwoorden. Gekozen is voor Wikikids omdat dit een relatief kleine collectie is (en daardoor de testdoorlooptijd te overzien is), maar ook omdat deze collectie geen vakgebiedinformatie heeft. De meeste artikelen in Wikikids behandelen ook slechts 1 onderwerp waardoor de trefwoorden in elk geval met elkaar te maken hebben. Dit betekent nog niet dat alle trefwoorden optimaal bij het artikel horen. In de resultaten is wel al te zien dat veel trefwoorden eigenlijk stopwoorden zijn. Echter, voor de doeleinden van het onderzoek van deze paragraaf is dat niet belangrijk.

In een stuk testcode werkt het proces als volgt:

  • voor elk record, voor elk trefwoord, haal de metadata trefwoord suggestie op
  • bekijk of de amount van gekoppelde trefwoorden boven de grenswaarde (40) komt
    • zoja, bekijk voor elk vak entry of deze groter dan de grenswaarde (50) komt.
  • print de informatie per record

De uitvoer voor een record ziet er dan als volgt uit. De titel, link en trefwoorden zijn vermeld, en vervolgens alle trefwoorden die uitkwamen op een vakgebied boven de grenswaarden. Tussen haakjes staat het betrouwbaarheidspercentage.

Aanwijzend voornaamwoord
http://wikikids.nl/Aanwijzend_voornaamwoord
degene, jan, gindse, prijs, zelfstandigheid, verbod, kapper, boek, krijgen, hard, vrouw, diens, dezelfde, voornaamwoord, aanwijzend
zelfstandigheid: Lichamelijke opvoeding (92.7)
verbod: Voedsel, natuur en leefomgeving (100)
boek: Nederlands (51.9)
hard: Voedsel, natuur en leefomgeving (66.7)
dezelfde: Natuurkunde (66.7)
voornaamwoord: Nederlands (100)
aanwijzend: Nederlands (100)

De voorgaande uitvoer is gemaakt op basis van de metadata uitvoer. De uitvoer voor hetzelfde trefwoord op basis van de querylogs uitvoer is als volgt.

Aanwijzend voornaamwoord
http://wikikids.nl/Aanwijzend_voornaamwoord
degene, jan, gindse, prijs, zelfstandigheid, verbod, kapper, boek, krijgen, hard, vrouw, diens, dezelfde, voornaamwoord, aanwijzend
boek: Engels (100)

En nog een voorbeeeld:

Contrareformatie
http://wikikids.nl/Contrareformatie
landen, weer, zoveel, roomse, eeuw, duitsland, kerken, gingen, zorgen, rooms, reformatie, mensen, paus, kerk, contrareformatie

# metadata
weer: Voedsel, natuur en leefomgeving (50.4)
duitsland: Voedsel, natuur en leefomgeving (98.9)
kerken: Voedsel, natuur en leefomgeving (84.8)
rooms: Voedsel, natuur en leefomgeving (91.7)

# querylogs
landen: Aardrijkskunde (85.7)
weer: Aardrijkskunde (69.4)
duitsland: Aardrijkskunde (88.9)
mensen: Zorg en welzijn (100)
kerk: Godsdienst (100)


Wanneer men door de metadata resultaten browst, is te zien dat vrij veel termen matchen met "Voedsel, natuur en leefomgeving", ook termen die er niet mee te maken hebben zoals bijvoorbeeld "troonopvolging". Dit is te verklaren door "scheve" metadatering. Groen Kennisnetnet heeft namelijk via Metaplus veel records die geheel of voor een deel te maken hebben met het groene domein gemetadateerd met het groene domein vakgebied; "Voedsel, natuur en leefomgeving". Dit is echter niet gebeurt voor andere vakgebieden waardoor het groen relatief vaak voorkomt en de resultaten dit vak bevooroordelen. Een voorbeeld van deze metadatering is een record van een nieuwsuitzending in Teleblik. Dit gaat over de troonopvolging maar ook de varkenspest (en dus groen). Hierdoor lijkt het alsof het trefwoord troonopvolging gekoppeld is aan groen en niet ook aan maatschappijleer.


De querylog resultaten bevatten vrij veel koppelingen die 100% betrouwbaar zijn, de matching met een vak lijkt echter wel vele malen beter. Echter is ook te zien dat veel trefwoorden blijkbaar nooit in combinatie met een vak worden gesteld. Het kan daardoor lastig worden om een compleet beeld te krijgen bij een record. Wellicht ook niet, men zou kunnen redeneren dat de grote hoeveelheden stopwoorden in de Wikikids trefwoorden toch al niet relevant waren, en het daarom niet erg is dat er geen vakinformatie voor is.