Aanbevelingen voor metadata
Dit is versie 0.9.4 van de Handleiding voor de Woo-harvester. Aan dit document kunnen geen rechten worden ontleend.
Wat doet metadata?
Zoekfuncties werken beter als de data waar de gebruiker doorheen zoekt voorzien is van metadata. Metadata kan ook gebruikt worden om zoekresultaten beter te presenteren of om documenten een hogere relevantie te geven in de zoekresultaten. Als er geen metadata beschikbaar is wordt het document wel geharvest, maar de gebruiker zal dan op het zoekportaal alleen op basis van de tekst in de documenten kunnen zoeken.
In onze harvester-implementatie worden alle metadata afgebeeld op een uniform model. Daardoor hoeft de eindgebruiker niet te weten hoe de metadata er bij aanlevering uitzag.
Bestuursorganen zijn zelf verantwoordelijk voor een correcte vulling van de metadata. De harvester voert geen inhoudelijke controle uit op de aan een document toegekende metadata.
Opname van metadata in de sitemaps
Er zijn verschillende manieren om metadata in de sitemap op te nemen:
- Opnemen van eigen metadata met naam/waarde-paren.
- Opnemen van metadata in het TOOI-formaat.
De verschillende manieren kunnen afzonderlijk gehanteerd worden maar zijn ook te combineren.
Onderaan deze pagina wordt aangegeven wat de verschillende effecten zijn op vindbaarheid.
Opname van eigen metadata met naam/waarde-paren
Het is mogelijk voor bestuursorganen om eigen, niet door KOOP gedefinieerde velden aan te leveren. Deze velden worden getoond bij het zoekresultaat en kunnen gebruikers meer context geven over het gevonden document. Deze velden worden in het zoekportaal echter niet gebruikt in zoek-, sorteer of filterfuncties.
Een voorbeeld bestand is te vinden in sitemap-alleen-eigenmetadata
.
Opname van metadata in het TOOI-formaat (aanbevolen)
De aanbevolen manier van het opnemen van metadata in de sitemap is het opnemen volgens het TOOI-formaat. Dit zorgt ervoor dat de Woo-harvester de openbare metadata op een betekenisvolle wijze kan verwerken. Er is een XML-schema beschikbaar om geldige TOOI-metadata in de sitemaps op te nemen.
TOOI staat voor de Thesaurus en Ontologie voor OverheidsInformatie. Een belangrijk kenmerk van TOOI is dat concepten identifiers hebben. Een waarde in een waardelijst is dus een identifier en deze moet gebruikt worden.
Een voorbeeld hiervan is de identificatie van een documentsoort, zoals dat, per document, opgenomen kan worden als tag in de sitemap:
diwoo:documentsoort resource="https://identifier.overheid.nl/tooi/def/thes/kern/c_386e74cb">convenant</diwoo:documentsoort> <
De (resource)identifier verwijst hierbij naar een waarde in de TOOI.
Door identifiers te gebruiken kan eenduidig naar een concept verwezen worden, onafhankelijk
van labels en schrijfwijzen. Zie het meegeleverde diwoo-metadata-lijsten
bestand voor de, per veld ondersteunde identifiers en bijbehorende labels. Deze zijn,
voor deze velden, technisch verplicht. Als alleen een string gebruikt wordt in plaats
van (verwijzing naar) een resource_id, dan kan dat zorgen voor een onjuiste weergave
van de veldwaarde op het portaal.
Als er gekozen wordt voor het aanleveren volgens het TOOI-model zijn de volgende metadata aanbevolen omdat hiermee een voor de gebruiker zinvolle(re) presentatie van een document op open.overheid.nl mogelijk is:
- uitgever (
diwoo:publisher
) - officiële titel (
diwoo:officieleTitel
) - informatiecategorie (
diwoo:informatiecategorie
) - documenthandeling (
diwoo:documenthandeling
) met daarbinnen- soort handeling (
diwoo:soortHandeling
) en - tijd van handeling (
diwoo:atTime
)
- soort handeling (
In het XML-schema zijn deze velden technisch verplicht gesteld binnen diwoo:DiWoo
. Als deze velden niet opgenomen zijn in de sitemap zal validatie tegen deze XSD dus
resulteren in een fout. Het bijgeleverde sitemap-alleenverplicht.xml
bestand bevat een voorbeeld van een sitemap met alleen door de XSD verplichte metadata.
Bij een aantal velden zal de harvester default waarden hanteren als deze niet aangeleverd
worden, zoals hieronder per veld nader beschreven.
Toelichting op de aanbevolen TOOI-velden
De totale set van ondersteunde TOOI-metadata is vastgelegd en gespecificeerd in de XSD en is, met voorbeelden, toegelicht in downloadbaar bestand Overzicht metadata voor de Woo-harvester versie 1.0. Een aantal voorbeeldsitemaps die gebruik maken van deze metadata zijn te downloaden vanaf pagina Sitemap voorbeelden. In aanvulling daarop is, voor de hierboven vermelde aanbevolen velden, hieronder een nadere toelichting opgenomen.
TOOI-veld 'uitgever' (publisher)
Met de uitgever (publisher) wordt de organisatie bedoeld die het document openbaar
heeft gemaakt. In het Register van Overheidsorganisaties worden deze organisaties
geregistreerd en door de harvester gebruikt. In de sitemaps kan deze ingevuld worden
in het element <publisher>
.
Als de <publisher>
niet wordt toegevoegd aan het document dan wordt deze afgeleid uit de id van de publicerende
organisatie uit de Woo-index (register voor overheidsorganisaties).
Zie corresponderend XSD-element publisher van Type "organisatieType".
Opmerking:
Omdat op open.overheid.nl
de 'verantwoordelijke' organisatie van het document wordt getoond, en niet de publisher,
is het aan te bevelen om de TOOI <verantwoordelijke>
mee te geven als document metadata (tag) in de sitemap. Bij afwezigheid van dit veld
nemen we de waarde van <publisher>
over als de te tonen verantwoordelijke organisatie.
TOOI-veld 'officieleTitel'
De titel van een geharvest document wordt prominent getoond op open.overheid.nl
. Het is dus belangrijk om de titel van het document, zoals dat getoond moet worden,
expliciet mee te geven in de metadata van het betreffende document. Hiervoor kan TOOI-metadataveld
<titelcollectie><officieleTitel>
gebruikt worden.
Als dit veld afwezig is dan zal de harvester proberen de documenttitel af te leiden
uit de bestandsnaam van het bestand uit de URL van het document uit de <url> <loc>
. Als dit niet lukt zal het betreffende document met titel ‘Onbekend’ weergegeven
worden op open.overheid.nl
.
Zie corresponderend XSD-element titelcollectie van complexType "titelcollectieType", sub-element officieleTitel (string).
TOOI-veld 'informatiecategorie'
Van elk document dient de corresponderende informatiecategorie bekend te zijn. Dit
kan door opname van TOOI-veld <informatiecategorie>
. Het is hierbij mogelijk om een document aan meerdere informatiecategorieën te relateren.
Als de informatiecategorie niet meegegeven wordt in de metadata en ook niet bepaald kan worden uit de naamgeving van het sitemapindexbestand dan wordt deze als "onbekend" gemapped.
Zie corresponderend XSD-element classificatiecollectie van complexType "classificatiecollectieType", met als child element informatiecategorieen van complexType “informatiecategorieenType”, die, via "informatiecategorieType" meerdere informatiecategorie elementen (URI en label) kan bevatten.
TOOI-veld 'documenthandeling'
Met een <documenthandeling>
kan worden aangegeven op welke datum een officiële handeling met betrekking tot het
document heeft plaatsgevonden.
Documenthandelingen zijn samengesteld uit een datum, een handeling en een voor de handeling verantwoordelijke organisatie. Aan actieve openbaarmaking in termen van de WOO ligt altijd minimaal één documenthandeling ten grondslag; meerdere documenthandelingen kunnen worden toegekend aan één document. Zie voor een nadere toelichting op de betekenis van deze drie velden het downloadbaar bestand Overzicht metadata voor de Woo-harvester versie 1.0
De harvester herkent op dit moment (alleen) de handelingen die gepubliceerd zijn volgens deze waardelijst:
Identifier | Label |
---|---|
tooikern:c_e1ec050e |
ondertekening |
tooikern:c_dfcee535 |
ontvangst |
tooikern:c_641ecd76 |
vaststelling |
Zie corresponderend XSD-element documenthandeling van complexType "documenthandelingType".
Als de documenthandeling niet meegegeven wordt in de metadata dan wordt de waarde "vaststelling" toegekend.
Relaties tussen documenten
Het is mogelijk om, in de sitemaps, relaties tussen documenten aan te geven.
Hieronder worden drie manieren toegelicht.
Noot: Het gebruik van veld 'aggregratiekenmerk' om daarmee relaties tussen documenten aan te geven en te laten tonen, wordt nog niet ondersteund.
Gebruik van <hasPart>
Met <hasPart>
kan aangegeven worden dat het betreffende document een onderdeel, in het algemeen
een bijlage, heeft (één of meerdere):
- in de
<hasPart>
moet verwezen worden naar de resource_id (de<loc>
url) van de betreffende bijlage - let op: de bijlage moet al bekend zijn (door de harvester opgehaald zijn) om de relatie te kunnen leggen
- de relatie tussen hoofddocument en bijlage wordt getoond op het portaal (zie paragraaf 'Weergave en filtering op portaal' hieronder)
Zie corresponderend XSD-element hasParts, die verwijst naar diwoo:documentverwijzingType.
Gebruik van <isPartOf>
Met <isPartOf>
kan aangegeven worden dat het betreffende document onderdeel, in het algemeen een
bijlage is van, (maximaal) één hoofddocument:
- in de
<isPartOf>
moet verwezen worden naar de resource_id (de<loc>
url) van het betreffende hoofddocument - let op: het hoofddocument moet al bekend zijn (door de harvester opgehaald zijn) om de relatie te kunnen leggen
- de relatie tussen hoofddocument en bijlage wordt getoond op het portaal (zie hieronder)
Zie corresponderend XSD-element isPartOf, die verwijst naar diwoo:documentverwijzingType.
Zie hieronder een vereenvoudigd, ingekort, XML-snippet om dit nader toe te lichten:
<?xml version="1.0" encoding="UTF-8"?>
urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<<!-- url van bijlage -->
loc>https://www.juinen.nl/Convenant_busvervoer_bijlage1.pdf</loc>
<diwoo:Document>
<diwoo:DiWoo>
<
... diwoo:titelcollectie>
<diwoo:officieleTitel>Bijlage 1 bij Convenant busvervoer</diwoo:officieleTitel>
<diwoo:titelcollectie>
</
... diwoo:DiWoo>
</diwoo:Document>
</url>
</url>
<<!-- url van hoofddocument -->
loc>https://www.juinen.nl/Convenant_busvervoer.pdf</loc>
<diwoo:Document>
<diwoo:DiWoo>
<
... diwoo:titelcollectie>
<diwoo:officieleTitel>Convenant busvervoer</diwoo:officieleTitel>
<diwoo:titelcollectie>
</
... diwoo:hasParts>
<diwoo:hasPart resource="https://www.juinen.nl/Convenant_busvervoer_bijlage1.pdf">Bijlage 1 Convenant busvervoer</diwoo:hasPart>
<<!-- N.B.: de resource (uri) moet verwijzen naar de <loc> van een al eerder verwerkt document -->
diwoo:hasParts>
</diwoo:DiWoo>
</diwoo:Document>
</url>
</urlset> </
Het hoofddocument en de bijlage(n) hoeven niet in dezelfde sitemap te staan.
Aanleveren van een zip-bestand
Het is ook mogelijk om een zip-bestand aan te leveren met documenten die ‘bij elkaar horen’. Zip-bestanden worden door de harvester echter niet automatisch uitgepakt en aan elkaar gerelateerd. Het zip-bestand wordt zonder verdere verwerking weergegeven op het portaal, als downloadbaar bestand.
Weergave en filtering op portaal
Op open.overheid.nl
is te filteren op de volgende velden:
- documentsoort
- thema
- (verantwoordelijke) organisatie
- informatiecategorie
Deze filtering werkt alleen op de documenten waarbij de betreffende velden zijn meegenomen in de TOOI-metadata.
Deze velden worden, met hun waarden, ook als attributen getoond in de detailweergave
van een document op open.overheid.nl
.
In aanvulling daarop worden daar de volgende velden (met waarden) getoond:
- documenttitel (gebaseerd op
<titelcollectie><officieleTitel>
) - datum van laatste wijziging (gebaseerd op
<lastmod>
) - creatiedatum van document (gebaseerd op
<creatiedatum>
); indien afwezig wordt hier de datum getoond dat het document het eerst is gezien door de harvester - geldigheidsdatum van document (gebaseerd op
<geldigheid>
) - documenthandeling (organisatie, handelingsoort en datum) (gebaseerd op
<documenthandelingen>
) - en alle velden die als naam/waarde-paar zijn aangeleverd
Impact van aanleveren van metadata op vindbaarheid
De twee manieren van aanleveren van metadata hebben verschillende effecten voor vindbaarheid op het zoekportaal.
Metadata alleen aangeleverd als naam/waarde paren in de sitemaps
Effect op vindbaarheid:
- Niet te filteren op aangeleverde metadata
- Getoonde documenttitels afgeleid uit bestandsnaam (indien mogelijk)
- Maximaal één informatiecategorie per document mogelijk (afgeleid uit de naamgeving van het sitemapindexbestand).
- Metadata worden als naam/waarde-paren getoond op
open.overheid.nl
Metadata met minimaal aanbevolen TOOI-metadata
Effect op vindbaarheid:
- Te filteren op documentsoort, thema, (verantwoordelijke) organisatie en informatiecategorie.
- Getoonde documenttitels gevalideerd en conform aanlevering.
- Het meegeven en daarmee tonen van meerdere informatiecategorieën per document mogelijk.
- aanbevolen TOOI-metadata wordt getoond op
open.overheid.nl
.