Edurep:Metadata verwerking

Uit Kennisnet Developers Documentatie
Versie door Muskee01 (overleg | bijdragen) op 5 nov 2021 om 09:57 (bewerkingen en validatie)
Naar navigatie springen Naar zoeken springen

Edurep-symbol.png Edurep: Metadata verwerking

Edurep harvest diverse repositories via het OAI-PMH protocol. Vervolgens kunnen eindgebruikers via de zoekindex zoeken in het materiaal dat Edurep op deze wijze heeft verzameld. Om de kwaliteit en uniformiteit te garanderen wirden er allerlei validaties, bewerkingen en translaties uitgevoerd op de metadata. In het schema hieronder staat een versimpelde weergave van de processen die plaatsvinden binnen Edurep.

EdurepComponentenSimplified.png


OAI-PMH Harvester

De harvester haalt de records binnen vanaf de aanbiedersrepository en fungeert daarmee als toegangspoort tot Edurep. Records die niet valideren worden geweigerd en de status is te bekijken op de harvester status pagina.

Harvester Status pagina

Per kolom in het statusoverzicht volgt nu een uitleg over de betekenis ervan:

  • Repository: De identifier van de repository (of een link naar de repository gegevens, alleen beschikbaar voor de beheerder van Edurep).
  • Last successful harvest: Timestamp van de laatste keer dat de harvester een "fout vrij" bezoek heeft gedaan.
  • Total records: Totaal aantal records die de harvester heeft opgehaald. (Dit aantal is niet per definitie hetzelfde als het aantal in Edurep. Het kan bijvoorbeeld voorkomen dat onze deadlink checker records met dode links opruimt.)
  • Harvested/Uploaded/Deleted: De verhouding tussen het aantal nieuwe of gewijzigde, en verwijderde records van het laatste harvest bezoek.
  • #Validation Errors: Het aantal validatiefouten. De link verwijst naar een lijst met alle fouten onderaan de statuspagina.
  • #Errors: Het aantal errors. De link verwijst naar een lijst met alle fouten onderaan de statuspagina.
  • RSS: Geeft toegang tot een rss feed voor een specifieke aangesloten collectie.

Validatiefouten

Wanneer een record succesvol wordt geharvest kan deze voor de opname in de zoekmachine nog geweigerd worden op basis van een validatiefout. Op dit moment wordt er alleen gevalideerd tegen het LOM XML schema (beide bindingen IEEE en IMS kunnen worden aangeboden).

In tegenstelling tot een error wordt er wel doorgeharvest na een validatiefout, tot op zekere hoogte. In principe wordt er na 100 validatiefouten niet meer doorgeharvest, er treedt dan voor de harvester een error op.

Elke validatiefout kan vanuit het foutenoverzicht individueel bekeken worden. De eerste regel van zo'n foutmelding bevat de gegenereerde samenvatting van de fout. In een aantal gevallen zal deze melding voldoende zijn om de fout in kwestie op te sporen. De getoonde xml staat hier in de IEEE LOM binding, maar is inhoudelijk gelijk aan het ingeschoten record.

Soms zegt deze regel echter "Line 105: Unable to transform record". De fout zelf is dan in het xml bestand terug te vinden, en omgeven door expliciete Edurep error xml elementen:

105<edurep:error xmlns:edurep="http://meresco.org/namespace/users/kennisnet/edurep">
106 <lom:keyword xmlns:lom="http://www.imsglobal.org/xsd/imsmd_v1p2">
107  <lom:langstring xml:lang="nl"/>
108 </lom:keyword>
109</edurep:error>

Wanneer een validatiefout bij de aanbieder wordt gerepareerd en volgens OAI met een nieuwe updated timestamp wordt aangeboden, wordt het record weer regulier meegeharvest en verdwijnt de validatiefout.

Deadlink Checker

De Deadlink Checker controleert of een record een geldige en werkende URL bevat in het url veld. Een record kan één van de volgende statussen krijgen:

  • OK: Het resultaat van de url is een 2.x.x of 3.x.x HTTP status code
  • NTL: Het record bevat geen url (No Technical Location)
  • FAILED: De url is niet valide of leidt tot een timeout of een 4.x.x of 5.x.x HTTP status code

Records met status FAILED worden vervolgens niet getoond in Edurep zoekresultaten.

Ongeveer één keer in de week worden alle records met de status "OK" gecontroleerd. De records met de status "FAILED" worden elke dag gecontroleerd.

Info.gif Het kan toch nog voorkomen dat sommige leerobjecten niet als een dead link worden aangemerkt doordat de URL uitkomt op een zogenaamde landingspagina die zich meldt als een OK ipv FAILED. Deze situaties zijn lastig te herkennen.

Deadlink Checker Status Pagina

Er is een statuspagina waar per repository een overzicht van de dode links is op te vragen.

Per kolom in het statusoverzicht een korte omschrijving:

  • Repository: De repository identifier zoals deze in Edurep bekend is.
  • Vindbare records: Het aantal geharveste records minus de records met dode links.
  • Deadlink records: Het aantal records met dode links.
  • Totaal: Het aantal geharveste records

Wanneer men doorklikt op een individuele repository, kan men zich abboneren op de rss feeds van de harvester en de deadlink checker, alsmede een overzicht van alle dode link recordIdentifiers downloaden.

Bewerkingen en Validatie

Er bestaan in Edurep verschillende bewerkings- en validatieprocessen om de kwaliteit van records te verhogen.

ontbrekende waarden

Omwille van de kwaliteit van de metadata vult Edurep een aantal velden van de metadata indien deze niet zijn ingevuld door de aanbieder. Het gaat om:

  • kosten: Edurep vult cost=yes in wanneer kosten niet aanwezig is.
  • uitgever: Edurep vult de repository_id in als publisher wanneer de aanbieder geen uitgever meegeeft.

OBK

Het invullen van een label bij een classificatie identifier is niet verplicht, maar wel praktisch voor zoekportalen betekenisvolle namen af te beelden bij zoekresultaten zonder daar een eigen lookup-service voor in te richten. Edurep vult daarom de labels altijd in voor elke geldige purl.edustandaard.nl/begrippenkader classificatie identifier vanuit binnen leerniveau, vak en doel.

  • Elke bestaande entry wordt ook overschreven.
  • Indien een taxon geen id bevat, maar alleen een entry, wordt de taxon uit het record gehaald omdat de validiteit van de entry niet kan worden bepaald.

Voorbeeld input:

<taxonpath>
  <source>
    <langstring xml:lang="x-none">http://purl.edustandaard.nl/begrippenkader</langstring>
  </source>
  <taxon>
    <!-- OBK-id voor Voortgezet Onderwijs -->
    <id>2a1401e9-c223-493b-9b86-78f6993b1a8d</id>
  </taxon>
  <taxon>
    <id>512e4729-03a4-43a2-95ba-758071d1b725</id>
    <entry>
        <langstring xml:lang=”nl”>PO</langstring>
    </entry>
  </taxon>
</taxonpath>

Resultaat:

<taxonpath>
  <source>
    <langstring xml:lang="x-none">http://purl.edustandaard.nl/begrippenkader</langstring>
  </source>
  <taxon>
    <id>2a1401e9-c223-493b-9b86-78f6993b1a8d</id>
    <!-- De entry is automatisch aangevuld -->
    <entry>
        <langstring xml:lang=”nl”>Voortgezet Onderwijs</langstring>
    </entry>
  </taxon>
  <taxon>
    <id>512e4729-03a4-43a2-95ba-758071d1b725</id>
    <!-- De entry is automatisch overschreven -->
    <entry>
        <langstring xml:lang=”nl”>Primair Onderwijs</langstring>
    </entry>
  </taxon>
</taxonpath>

vCard

Een VCARD in een centity wordt door Edurep gescand om te kunnen zoeken op "author" of "publisher". Van de mogelijke variabelen in een vCard worden N, FN en ORG gebruikt als mogelijke waarden. Het eerste veld in een vCard wat voldoet aan deze variabelen wordt gebruikt. Een vCard moet voldoen aan versie 3.0. Hierbij zijn de FN, N en VERSION verplicht en niet leeg.


SMO Tag Volgorde

Na het inschieten van een SMO kan de volgorde van tags verschillen met de volgorde van de tags in het origineel. Wanneer bijvoorbeeld de tags "Eerste Wereldwereldoorlog" eerst bestonden kan dat na een indexering "Wereldoorlog Eerste" zijn. In een zoekapplicatie zou men bij het zoeken naar tags niet een exacte volgorde van tags moeten implementeren maar één waarbij een OR of AND operator wordt toegepast.

Doorlooptijd

De doorlooptijd van het verwerken van metadata in Edurep is de tijd tussen het inschieten SMO's of het ophalen van LOM bij de aanbieder en de beschikbaarheid in Edurep Search. Deze doorlooptijd is near-realtime en in de praktijk nauwelijks merkbaar. De primaire doelstelling van Edurep is de beschikbaarheid van het zoeken naar LOM/SMO's en het inschieten van SMO's. De doorlooptijd zal zoveel mogelijk worden geminimaliseerd.

Mapping "oude stijl" VDEX waarden naar OBK waarden

Warn.gif Dit mechanisme zal in 2020 langzaam uitgefaseerd worden.

Repositories gebruiken voor het metadateren

Voor de duidelijkheid, men geeft middels de taxon source aan of er wordt gerefereerd naar het OBK. De correcte referentie hierbij is "http://purl.edustandaard.nl/begrippenkader". Zie de Standaarden uitleg voor meer informatie.

<taxonpath>
  <source>
    <!-- geen OBK verwijzing, dus elk id mag -->
    <langstring xml:lang="x-none">http://purl.edustandaard.nl/mijn_begrippenkader</langstring>
  </source>
  <taxon>
    <id>3a26037c-b635-4027-82b2-0941a4a5bc88</id>
  </taxon>
</taxonpath>

Ten behoeve van de optimale vindbaarheid van records tijdens de migratie naar het Begrippenkader, worden termen van "oude" vocabulaires gemapt naar termen uit het Begrippenkader.

Dit mapping mechanisme is gebaseerd op de mappings zoals die door Edustandaard gemaakt zijn, een uitgebreide beschrijving is hier te vinden.

Het mapping mechanisme is per collectie ingesteld, een overzicht hiervan is hier te vinden.

Op basis van deze mappings zijn XSLT's gemaakt, deze XSTL's zijn publiekelijk beschikbaar op https://github.com/kennisnet/edurep-xslt.

Bij de mapping worden alleen termen toegevoegd en niet vervangen. Bijvoorbeeld, indien een record deze metadata bevat:

<czp:classification>
   <czp:purpose>
      <czp:source>
         <czp:langstring xml:lang="x-none">http://download.edustandaard.nl/vdex/vdex_classification_purpose_czp_20060628.xml</czp:langstring>
      </czp:source>
      <czp:value>
         <czp:langstring xml:lang="x-none">discipline</czp:langstring>
      </czp:value>
   </czp:purpose>
   <czp:taxonpath>
      <czp:source>
         <czp:langstring xml:lang="x-none">http://purl.edustandaard.nl/vdex_classification_opleidingsdomeinen_en_studierichtingen_mbo_2010.xml</czp:langstring>
      </czp:source>
      <czp:taxon>
         <czp:id>16</czp:id>
         <czp:entry>
            <czp:langstring xml:lang="nl">Voedsel, natuur en leefomgeving</czp:langstring>
         </czp:entry>
      </czp:taxon>
   </czp:taxonpath>
</czp:classification>

Dan wordt dat als volgt gemapt:

<czp:classification>
   <czp:purpose>
      <czp:source>
         <czp:langstring xml:lang="x-none">http://purl.edustandaard.nl/vdex_classification_purpose_czp_20060628.xml</czp:langstring>
      </czp:source>
      <czp:value>
         <czp:langstring xml:lang="x-none">discipline</czp:langstring>
      </czp:value>
   </czp:purpose>
   <czp:taxonpath>
      <czp:source>
         <czp:langstring xml:lang="x-none">http://purl.edustandaard.nl/vdex_classification_opleidingsdomeinen_en_studierichtingen_mbo_2010.xml</czp:langstring>
      </czp:source>
      <czp:taxon>
         <czp:id>16</czp:id>
         <czp:entry>
            <czp:langstring xml:lang="nl">Voedsel, natuur en leefomgeving</czp:langstring>
         </czp:entry>
      </czp:taxon>
   </czp:taxonpath>
</czp:classification>
<czp:classification>
   <czp:purpose>
      <czp:source>
         <czp:langstring xml:lang="x-none">http://download.edustandaard.nl/vdex/vdex_classification_purpose_czp_20060628.xml</czp:langstring>
      </czp:source>
      <czp:value>
         <czp:langstring xml:lang="x-none">discipline</czp:langstring>
      </czp:value>
   </czp:purpose>
   <czp:taxonpath>
      <czp:source>
         <czp:langstring xml:lang="x-none">http://purl.edustandaard.nl/begrippenkader</czp:langstring>
      </czp:source>
      <czp:taxon>
         <czp:id>5e86dc82-1981-48df-bbe5-abd4a9b3767b</czp:id>
         <czp:entry>
            <czp:langstring xml:lang="nl">Voedsel, natuur en leefomgeving</czp:langstring>
         </czp:entry>
      </czp:taxon>
   </czp:taxonpath>
</czp:classification>