Aanbevelingen voor metadata
Deze pagina beschrijft 0.9.8 van de publicatievoorwaarden van de Woo-harvester, het XML-schema en bijbehorende documentatie. Aan dit document kunnen geen rechten worden ontleend.
Wat doet metadata?
Zoekfuncties werken beter als de data waar de gebruiker doorheen zoekt voorzien is van metadata. Metadata kan ook gebruikt worden om zoekresultaten beter te presenteren of om documenten een hogere relevantie te geven in de zoekresultaten. Als er geen metadata beschikbaar is wordt het document wel geharvest, maar de gebruiker zal dan op het zoekportaal alleen op basis van de tekst in de documenten kunnen zoeken.
In onze harvester-implementatie worden alle metadata afgebeeld op een uniform model. Daardoor hoeft de eindgebruiker niet te weten hoe de metadata er bij aanlevering uitzag.
Bestuursorganen zijn zelf verantwoordelijk voor een correcte vulling van de metadata. De harvester voert geen inhoudelijke controle uit op de aan een document toegekende metadata.
Opname van metadata in de sitemaps
Er zijn verschillende manieren om metadata in de sitemap op te nemen:
- Opnemen van eigen metadata met naam/waarde-paren.
- Opnemen van metadata in het TOOI-formaat.
De verschillende manieren kunnen afzonderlijk gehanteerd worden maar zijn ook te combineren.
Onderaan deze pagina wordt aangegeven wat de verschillende effecten zijn op vindbaarheid.
In de toekomst zal het ook mogelijk zijn om metadata volgens de MDTO-specificatie in de sitemaps aan te leveren. Een concept-specificatie daarvan is opgenomen op de pagina MDTO als alternatief voor de modellering van de metadata. Het is nog niet besloten wanneer MDTO aanleveringen door de woo-harvester verwerkt kunnen gaan worden.
Opname van eigen metadata met naam/waarde-paren
Het is mogelijk voor bestuursorganen om eigen, niet door KOOP gedefinieerde velden aan te leveren. Deze velden worden getoond bij het zoekresultaat en kunnen gebruikers meer context geven over het gevonden document. Deze velden worden in het zoekportaal echter niet gebruikt in zoek-, sorteer of filterfuncties.
Een voorbeeld bestand is te vinden in sitemap-alleen-eigenmetadata
.
Opname van metadata in het TOOI-formaat (aanbevolen)
De aanbevolen manier van het opnemen van metadata in de sitemap is het opnemen volgens het TOOI-formaat. Dit zorgt ervoor dat de Woo-harvester de openbare metadata op een betekenisvolle wijze kan verwerken. Er is een XML-schema beschikbaar om geldige TOOI-metadata te valideren.
TOOI staat voor de Thesaurus en Ontologie voor OverheidsInformatie. Een belangrijk kenmerk van TOOI is dat concepten identifiers hebben. Een waarde in een waardelijst is dus een identifier; deze moet gebruikt worden.
Een voorbeeld hiervan is de identificatie van een documentsoort, zoals dat, per document, opgenomen kan worden als tag in de sitemap:
<diwoo:documentsoort
resource="https://identifier.overheid.nl/tooi/def/thes/kern/c_386e74cb">
convenant
</diwoo:documentsoort>
De (resource)identifier verwijst hierbij naar een waarde in TOOI.
Door identifiers te gebruiken kan eenduidig naar een concept verwezen worden, onafhankelijk
van labels en schrijfwijzen.
Zie het meegeleverde diwoo-metadata-lijsten
bestand voor de, per veld ondersteunde identifiers en bijbehorende labels.
Deze zijn, voor deze velden, technisch verplicht.
Als alleen een string gebruikt wordt in plaats van (verwijzing naar) een resource_id,
dan kan dat zorgen voor een onjuiste weergave van de veldwaarde op het portaal.
Als er gekozen wordt voor het aanleveren volgens het TOOI-model zijn de volgende metadata aanbevolen omdat hiermee een voor de gebruiker zinvolle(re) presentatie van een document op open.overheid.nl mogelijk is:
- uitgever
- officiële titel
- informatiecategorie
- documenthandeling met daarbinnen
In het XML-schema zijn deze velden technisch verplicht gesteld binnen diwoo:Document.
Als deze velden niet opgenomen zijn in de sitemap zal validatie tegen deze XSD dus
resulteren in een fout.
Het bijgeleverde sitemap-alleenverplicht.xml
bestand bevat een voorbeeld van een sitemap met alleen door de XSD verplichte metadata.
Bij een aantal velden zal de harvester default waarden hanteren als deze niet aangeleverd
worden, zoals hieronder per veld nader beschreven.
Toelichting op de aanbevolen TOOI-velden
De totale set van ondersteunde TOOI-metadata is vastgelegd en gespecificeerd in de XSD en is, met voorbeelden, toegelicht in downloadbaar bestand Overzicht metadata voor de Woo-harvester versie 1.0. Een aantal voorbeeldsitemaps die gebruik maken van deze metadata zijn te downloaden vanaf pagina Sitemap-voorbeelden. In aanvulling daarop is, voor de hierboven vermelde aanbevolen velden, hieronder een nadere toelichting opgenomen.
TOOI-veld 'uitgever' (publisher)
Met de uitgever (publisher) wordt de organisatie bedoeld die het document openbaar
heeft gemaakt.
In het Register van Overheidsorganisaties worden deze organisaties geregistreerd en
door de harvester gebruikt.
In de sitemaps dient deze ingevuld te worden in het element <publisher>
.
Als de <publisher>
niet wordt toegevoegd aan het document dan wordt deze afgeleid uit de id van de publicerende
organisatie uit de Woo-index (register voor overheidsorganisaties).
Zie corresponderend XSD-element diwoo:publisher van type diwoo:organisatieType.
Opmerking:
Omdat op open.overheid.nl
de 'verantwoordelijke' organisatie van het document wordt getoond, en niet de publisher,
is het aan te bevelen om de TOOI <verantwoordelijke>
mee te geven als document metadata (tag) in de sitemap.
Bij afwezigheid van dit veld nemen we de waarde van <publisher>
over als de te tonen verantwoordelijke organisatie.
TOOI-veld 'officieleTitel'
De titel van een geharvest document wordt prominent getoond op open.overheid.nl
.
Het is dus belangrijk om de titel van het document, zoals dat getoond moet worden,
expliciet mee te geven in de metadata van het betreffende document.
Hiervoor kan TOOI-metadataveld <titelcollectie><officieleTitel>
gebruikt worden.
Als dit veld afwezig is dan zal de harvester proberen de documenttitel af te leiden
uit de bestandsnaam van het bestand uit de URL van het document uit de <url> <loc>
.
Als dit niet lukt zal het betreffende document met titel ‘Onbekend’ weergegeven worden
op open.overheid.nl
.
Zie corresponderend XSD-element diwoo:officieleTitel van type 'xs:string'.
TOOI-veld 'informatiecategorie'
Van elk document dient de corresponderende informatiecategorie bekend te zijn.
Dit kan door opname van TOOI-veld <informatiecategorie>
.
Het is hierbij mogelijk om een document aan meerdere informatiecategorieën te relateren.
Als de informatiecategorie niet meegegeven wordt in de metadata en ook niet bepaald
kan worden uit de naamgeving van het sitemapindexbestand dan wordt deze als "onbekend"
gemapped.
Zie corresponderend XSD-element diwoo:classificatiecollectie met complexType diwoo:classificatiecollectieType, met daarbinnen diwoo:informatiecategorieen met complexType diwoo:informatiecategorieenType, die middels diwoo:informatiecategorieType meerdere elementen diwoo:informatiecategorie met een URI en label kan bevatten.
TOOI-veld 'documenthandeling'
Met een <documenthandeling>
kan worden aangegeven op welke datum een officiële handeling met betrekking tot het
document heeft plaatsgevonden.
Documenthandelingen zijn samengesteld uit een datum, een handeling en een voor de
handeling verantwoordelijke organisatie.
Aan actieve openbaarmaking in termen van de WOO ligt altijd minimaal één documenthandeling
ten grondslag; meerdere documenthandelingen kunnen worden toegekend aan één document.
Zie voor een nadere toelichting op de betekenis van deze drie velden het downloadbaar
bestand Overzicht metadata voor de Woo-harvester versie 1.0
De harvester herkent op dit moment (alleen) de handelingen die gepubliceerd zijn volgens deze waardelijst:
Identifier | Label |
---|---|
tooikern:c_e1ec050e |
ondertekening |
tooikern:c_dfcee535 |
ontvangst |
tooikern:c_641ecd76 |
vaststelling |
Zie corresponderend XSD-element diwoo:documenthandeling met complexType diwoo:documenthandelingenType.
Als de documenthandeling niet meegegeven wordt in de metadata dan wordt de waarde "vaststelling" toegekend.
Relaties tussen documenten
Het is mogelijk om, in de sitemaps, relaties tussen documenten aan te geven.
Hieronder worden drie manieren toegelicht.
Noot: Het gebruik van veld 'aggregratiekenmerk' om daarmee relaties tussen documenten aan te geven en te laten tonen, wordt nog niet ondersteund.
Gebruik van <hasPart>
Met <hasPart>
kan aangegeven worden dat het betreffende document een onderdeel, in het algemeen
een bijlage, heeft (één of meerdere):
- in de
<hasPart>
moet verwezen worden naar de resource_id (de<loc>
url) van de betreffende bijlage - let op: de
<loc>
url van de bijlage moet al bekend zijn (door de harvester opgehaald zijn) om de relatie te kunnen leggen - de relatie tussen hoofddocument en bijlage wordt getoond op het portaal (zie paragraaf 'Weergave en filtering op portaal' hieronder)
Zie corresponderend XSD-element diwoo:hasPart van type diwoo:documentverwijzingType.
Gebruik van <isPartOf>
Met <isPartOf>
kan aangegeven worden dat het betreffende document onderdeel, in het algemeen een
bijlage is van, (maximaal) één hoofddocument:
- in de
<isPartOf>
moet verwezen worden naar de resource_id (de<loc>
url) van het betreffende hoofddocument - let op: de
<loc>
url van het hoofddocument moet al bekend zijn (door de harvester opgehaald zijn) om de relatie te kunnen leggen - de relatie tussen hoofddocument en bijlage wordt getoond op het portaal (zie hieronder)
Zie corresponderend XSD-element diwoo:isPartOf van type diwoo:documentverwijzingType.
Zie hieronder een vereenvoudigd, ingekort, XML-snippet om dit nader toe te lichten:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<!-- url van bijlage -->
<loc>https://www.juinen.nl/Convenant_busvervoer_bijlage1.pdf</loc>
<diwoo:Document>
<diwoo:DiWoo>
...
<diwoo:titelcollectie>
<diwoo:officieleTitel>Bijlage 1 bij Convenant busvervoer</diwoo:officieleTitel>
</diwoo:titelcollectie>
...
</diwoo:DiWoo>
</diwoo:Document>
</url>
<url>
<!-- url van hoofddocument -->
<loc>https://www.juinen.nl/Convenant_busvervoer.pdf</loc>
<diwoo:Document>
<diwoo:DiWoo>
...
<diwoo:titelcollectie>
<diwoo:officieleTitel>Convenant busvervoer</diwoo:officieleTitel>
</diwoo:titelcollectie>
...
<diwoo:hasParts>
<diwoo:hasPart resource="https://www.juinen.nl/Convenant_busvervoer_bijlage1.pdf">Bijlage 1 Convenant busvervoer</diwoo:hasPart>
<!-- N.B.: de resource (uri) moet verwijzen naar de <loc> van een al eerder verwerkt document -->
</diwoo:hasParts>
</diwoo:DiWoo>
</diwoo:Document>
</url>
</urlset>
Het hoofddocument en de bijlage(n) hoeven niet in dezelfde sitemap te staan.
Aanleveren van een zip-bestand
Het is ook mogelijk om een zip-bestand aan te leveren met documenten die ‘bij elkaar horen’. Zip-bestanden worden door de harvester echter niet automatisch uitgepakt en aan elkaar gerelateerd. Het zip-bestand wordt zonder verdere verwerking weergegeven op het portaal, als downloadbaar bestand.
Weergave en filtering op portaal
Op open.overheid.nl
is te filteren op de volgende velden:
- documentsoort
- thema
- (verantwoordelijke) organisatie
- informatiecategorie
Deze filtering werkt alleen op de documenten waarbij de betreffende velden zijn meegenomen in de TOOI-metadata.
Deze velden worden, met hun waarden, ook als attributen getoond in de detailweergave
van een document op open.overheid.nl
.
In aanvulling daarop worden daar de volgende velden (met waarden) getoond:
- documenttitel (gebaseerd op
<titelcollectie><officieleTitel>
) - datum van laatste wijziging (gebaseerd op
<lastmod>
) - creatiedatum van document (gebaseerd op
<creatiedatum>
); indien afwezig wordt hier de datum getoond dat het document het eerst is gezien door de harvester - geldigheidsdatum van document (gebaseerd op
<geldigheid>
) - documenthandeling (organisatie, handelingsoort en datum) (gebaseerd op
<documenthandelingen>
) - en alle velden die als naam/waarde-paar zijn aangeleverd
Impact van aanleveren van metadata op vindbaarheid
De twee manieren van aanleveren van metadata hebben verschillende effecten voor vindbaarheid op het zoekportaal.
Metadata alleen aangeleverd als naam/waarde paren in de sitemaps
Effect op vindbaarheid:
- Niet te filteren op aangeleverde metadata
- Getoonde documenttitels afgeleid uit bestandsnaam (indien mogelijk)
- Maximaal één informatiecategorie per document mogelijk (afgeleid uit de naamgeving van het sitemapindexbestand).
- Metadata worden als naam/waarde-paren getoond op
open.overheid.nl
Metadata met minimaal aanbevolen TOOI-metadata
Effect op vindbaarheid:
- Te filteren op documentsoort, thema, (verantwoordelijke) organisatie en informatiecategorie.
- Getoonde documenttitels gevalideerd en conform aanlevering.
- Het meegeven en daarmee tonen van meerdere informatiecategorieën per document mogelijk.
- aanbevolen TOOI-metadata wordt getoond op
open.overheid.nl
.