Aanbevelingen voor metadata

Wat doet metadata?

Zoekfuncties werken beter als de data waar de gebruiker doorheen zoekt voorzien is van metadata. Metadata kan ook gebruikt worden om zoekresultaten beter te presenteren of om documenten een hogere relevantie te geven in de zoekresultaten. Als er geen metadata beschikbaar is wordt het document wel geharvest, maar de gebruiker zal dan op het zoekportaal alleen op basis van de tekst in de documenten kunnen zoeken.

In onze harvester implementatie worden alle metadata afgebeeld op een uniform model. Daardoor hoeft de eindgebruiker niet te weten hoe de metadata er bij aanlevering uitzag.

Bestuursorganen zijn zelf verantwoordelijk voor een correcte vulling van de metadata. De harvester voert geen inhoudelijke controle uit op de aan een document toegekende metadata.

Opname van metadata in de sitemaps

Er zijn verschillende manieren om metadata in de sitemap op te nemen:

  • Opnemen van eigen metadata met naam/waarde paren.
  • Opnemen van metadata in het TOOI-formaat.

De verschillende manieren kunnen afzonderlijk gehanteerd worden maar zijn ook te combineren.

Opname van eigen metadata met naam/waarde paren

Het is mogelijk voor bestuursorganen om eigen, niet door KOOP gedefinieerde velden aan te leveren. Deze velden worden getoond bij het zoekresultaat en kunnen gebruikers meer context geven over het gevonden document. Deze velden worden in het zoekportaal echter niet gebruikt in zoek-, sorteer of filterfuncties.

Opname van metadata in het TOOI formaat (aanbevolen)

De aanbevolen manier van het opnemen van metadata in de sitemap is het opnemen volgens het TOOI-formaat. Dit zorgt ervoor dat de Woo-harvester de openbare metadata op een betekenisvolle wijze kan verwerken. Er is een XML-schema beschikbaar om geldige TOOI-metadata in de sitemaps op te nemen.

TOOI staat voor de Thesaurus en Ontologie voor OverheidsInformatie. Een belangrijk kenmerk van TOOI is dat concepten identifiers hebben. Een waarde in een waardelijst heeft dus een identifier en deze moet gebruikt worden. Door identifiers te gebruiken kan eenduidig naar een concept verwezen worden, onafhankelijk van labels en schrijfwijzen.

Als er gekozen wordt voor het aanleveren volgens het TOOI-model zijn de volgende metadata verplicht om de juiste verwerking van deze metadata mogelijk te maken:

In het XML-schema zijn deze velden verplicht gesteld binnen diwoo:DiWoo.

Als deze velden (toch) afwezig blijken te zijn in de sitemaps, of aanwezig zijn zonder waarde, dan zal de harvester, om een juiste verwerking mogelijk te maken, default waarden hiervoor hanteren, zoals hieronder per veld nader beschreven.

Toelichting op de verplichte TOOI velden

De totale set van ondersteunde TOOI metadata is vastgelegd en gespecificeerd in de XSD. Een aantal voorbeeld invullingen daarvan is opgenomen in de voorbeelden die te downloaden zijn vanaf pagina XML-schema voor Woo-metadata in een sitemap. Voor de hierboven vermelde verplichte velden is een nadere toelichting over betekenis en gebruik hieronder beschreven.

TOOI veld 'uitgever'

Met de uitgever (publisher) wordt de organisatie bedoeld die het document openbaar heeft gemaakt. In het Register van Overheidsorganisaties worden deze organisaties geregistreerd en door de harvester gebruikt. In de sitemaps kan deze ingevuld worden in de <publisher> tag.

Als de <publisher> niet wordt toegevoegd aan het document dan wordt deze afgeleid uit de id van de publicerende organisatie uit de woo index (register voor overheidsorganisaties).

Zie corresponderend XSD element publisher van Type "organisatieType".

Opmerking:

Omdat we op open.overheid.nl de 'verantwoordelijke' organisatie van het document tonen, en niet de publisher, is het aan te bevelen om de TOOI <verantwoordelijke> mee te geven als document metadata (tag) in de sitemap. Bij afwezigheid van dit veld nemen we de waarde van <publisher> over als de te tonen verantwoordelijke organisatie.

TOOI veld 'officieleTitel'

De titel van een geharvest document wordt prominent getoond op open.overheid.nl. Het is dus belangrijk om de titel van het document, zoals dat getoond moet worden, expliciet mee te geven in de XML metadata van het betreffende document. Hiervoor kan TOOI metadata veld <titelcollectie><officieleTitel> gebruikt worden.

Als dit veld afwezig is dan zal de harvester proberen de documenttitel af te leiden uit de bestandsnaam van het bestand uit de URL van het document uit de <url> <loc>. Als dit niet lukt zal het betreffende document met titel ‘Onbekend’ weergegeven worden op open.overheid.nl.

Zie corresponderend XSD element titelcollectie van complexType "titelcollectieType", sub-element officieleTitel (string).

TOOI veld 'informatiecategorie'

Van elk document dient de corresponderende informatiecategorie bekend te zijn. Dit kan door opname van TOOI veld <informatiecategorie>. Het is hierbij mogelijk om een document aan meerdere informatiecategorieën te relateren.

Als de informatiecategorie niet meegegeven wordt in de metadata en ook niet bepaald kan worden uit de naamgeving van het sitemapindexbestand dan wordt deze als "onbekend" gemapped.

Zie corresponderend XSD element classificatiecollectie van complexType "classificatiecollectieType", met als child element informatiecategorieen van complexType “informatiecategorieenType”, die, via "informatiecategorieType" meerdere informatiecategorie elementen (URI en label) kan bevatten.

TOOI veld 'creatiedatum'

Met TOOI veld <creatiedatum> kan aangegeven wanneer het document is aangemaakt.

Als de <creatiedatum> niet wordt toegevoegd aan het document dan wordt deze afgeleid uit de openbaarmakingsdatum van het document.

Zie corresponderend XSD element creatiedatum van type “xs:date”

TOOI veld 'documenthandeling'

Met een <documenthandeling> kan worden aangegeven op welke datum een officiële handeling met betrekking tot het document heeft plaatsgevonden.

Documenthandelingen zijn samengesteld uit een datum, een handeling en een voor de handeling verantwoordelijke organisatie. Aan actieve openbaarmaking in termen van de WOO ligt altijd minimaal één documenthandeling ten grondslag, daarom is dit veld verplicht; meerdere documenthandelingen kunnen worden toegekend aan één document.

De harvester herkent op dit moment (alleen) de handelingen die gepubliceerd zijn volgens deze waardelijst:

Code Waarde
c_e1ec050e ondertekening
c_dfcee535 ontvangst
c_641ecd76 vaststelling

Zie corresponderend XSD element documenthandeling van complexType "documenthandelingType".

Weergave en filtering op portaal

Op open.overheid.nl is te filteren op de volgende velden:

  • documentsoort
  • thema
  • (verantwoordelijke) organisatie
  • informatiecategorie

Deze filtering werkt alleen op de documenten waarbij de betreffende velden zijn meegenomen in de TOOI metadata.

Deze velden worden, met hun waarden, ook als attributen getoond in de detailweergave van een document op open.overheid.nl.

In aanvulling daarop worden daar de volgende velden (met waarden) getoond:

  • documenttitel (gebaseerd op <titelcollectie><officieleTitel>)
  • laatst gewijzigd datum (gebaseerd op <lastmod>)
  • document creatiedatum (gebaseerd op <creatiedatum>)
  • document geldigheidsdatum (gebaseerd op <geldigheid> waarden)
  • documenthandeling (organisatie, handelingsoort en datum) (gebaseerd op <documenthandelingen>)
  • en alle velden die als key/value paar zijn aangeleverd

Impact van aanleveren van metadata op vindbaarheid

De twee manieren van aanleveren van metadata hebben verschillende effecten voor vindbaarheid op het zoekportaal.

Metadata alleen aangeleverd als naam/waarde paren in de sitemaps

Effect op vindbaarheid:

  • Niet te filteren op aangeleverde metadata
  • Getoonde documenttitels afgeleid uit bestandsnaam (indien mogelijk)
  • Maximaal één informatiecategorie per document mogelijk (afgeleid uit de naamgeving van het sitemapindexbestand).
  • Metadata worden als naam/waarde paren getoond op open.overheid.nl

Metadata met minimaal verplichte TOOI tags

Effect op vindbaarheid:

  • Te filteren op documentsoort, thema, (verantwoordelijke) organisatie en informatiecategorie.
  • Getoonde documenttitels gevalideerd en conform aanlevering.
  • Het meegeven en daarmee tonen van meerdere informatiecategorieën per document mogelijk.
  • Verplichte TOOI tags worden als metadata getoond op open.overheid.nl.