Gebruiker:Muskee01/Metadateerrobot/Eerste Resultaten: verschil tussen versies

Uit Kennisnet Developers Documentatie
Naar navigatie springen Naar zoeken springen
(Nieuwe pagina aangemaakt met 'Inmiddels is de hele Edurep metadata set eenmaal door de mangel gehaald en hebben we een eerste tool gemaakt om een indruk te krijgen van de trefwoord koppelingen. ...')
 
k (Admin heeft de pagina Gebruiker:Wim.muskee/Metadateerrobot/Eerste Resultaten hernoemd naar Gebruiker:Muskee01/Metadateerrobot/Eerste Resultaten zonder een doorverwijzing achter te laten: Automatisch hernoemd bij het hernoemen van gebruiker "[[U...)
 
(geen verschil)

Huidige versie van 3 jul 2018 om 14:29

Inmiddels is de hele Edurep metadata set eenmaal door de mangel gehaald en hebben we een eerste tool gemaakt om een indruk te krijgen van de trefwoord koppelingen. Deze set is gebaseerd op meer dan 1.5 miljoen records en bevat 256.000 unieke trefwoord-vak koppelingen met 117.000 unieke trefwoorden en 474 unieke vakken.

Bij het trefwoord "anne frank" zien we de volgende resultaten:

{
    "keyword": "Anne Frank",
    "meta": {
        "totalcount": "39"
    },
    "result": [
        {
            "identifier": "ef3a0b2e-0843-4e0a-b45b-788be6e1ec8d",
            "label": "Geschiedenis",
            "count": "27",
            "perc": "69.2"
        },
        {
            "identifier": "3401cf6e-82e4-404c-b216-b980ff407159",
            "label": "Nederlands",
            "count": "4",
            "perc": "10.3"
        },
        {
            "identifier": "8b194f4d-d757-440d-b8a2-e7427849a6db",
            "label": "Wereldorientatie",
            "count": "3",
            "perc": "7.7"
        },
        {
            "identifier": "ddae0006-230f-4f00-b407-9d358a90a27e",
            "label": "Technisch schrijven",
            "count": "2",
            "perc": "5.1"
        },
        {
            "identifier": "534ac9f4-f71d-4b46-89e0-dc3f6813da6d",
            "label": "Lezen",
            "count": "1",
            "perc": "2.6"
        },
        {
            "identifier": "f97e788f-5aa6-4ab4-9448-9e27b79daa9e",
            "label": "Natuur",
            "count": "1",
            "perc": "2.6"
        },
        {
            "identifier": "aa2f68ba-69e5-415d-8d9b-8d6ab98942b1",
            "label": "Burgerschap",
            "count": "1",
            "perc": "2.6"
        }
    ]
}

En voor trefwoord "veel":

{
    "keyword": "veel",
    "meta": {
        "totalcount": "1"
    },
    "result": [
        {
            "identifier": "3401cf6e-82e4-404c-b216-b980ff407159",
            "label": "Nederlands",
            "count": "1",
            "perc": "100"
        }
    ]
}

De vraag is nu hoe we betrouwbare conclusies uit deze resultaten kunnen halen. Vooralsnog kunnen we een aantal kenmerken zien:

  • aantal keren dat trefwoord voorkomt: Het trefwoord "Anne Frank" komt 39x voor.
  • gebruik bij vakgebieden: Het trefwoord "Anne Frank" komt voor bij 7 vakken voor.
  • verdeling over vakgebieden: Naar verhouding komt het trefwoord "Anne Frank" bij het vak "Geschiedenis" het vaakste voor.

We zouden conclusies kunnen verbinden aan een bepaalde combinatie van deze kenmerken, bijvoorbeeld voorkomendheid >20, gebruik > 5 en verdeling >20%. Echter voordat we daadwerkelijk conclusies kunnen maken is er meer kennis nodig, zeker van het OBK.

Het trefwoord "grammatica" hoort bijvoorbeeld volgens de bovenstaande kenmerkcombinatie bij het vak "Engels". Het OBK zou ons echter kunnen leren dat "Grammatica" bestaat bij meerdere taalvakken en dat het resultaat dus meer zegt over de metadatering van leermaterialen Engels, of de voorkomendheid van leermaterialen Engels in Edurep ten opzichte van andere talen.