TOOI - Inleiding 1.0.2

KOOP Standaard
Vastgestelde versie

Deze versie:
https://standaarden.overheid.nl/tooi/doc/def-st-tooi-inleiding-20240318
Laatst gepubliceerde versie:
https://standaarden.overheid.nl/tooi/doc/tooi-inleiding
Redacteur:
TOOI-beheerteam (KOOP)
Auteur:
Kennis- en Exploitatiecentrum voor Officiële Overheidspublicaties (KOOP)

Status van dit document

Dit is de definitieve versie van dit document. Wijzigingen naar aanleiding van consultaties zijn doorgevoerd.

Samenvatting

Het doel van TOOI is het definiëren van een gemeenschappelijke taal waarmee data en metadata uitgedrukt kunnen worden, zodat overheidsinformatie beter vindbaar, toegankelijk, interoperabel en herbruikbaar wordt.

Deze inleiding beschrijft waarom dit belangrijk is en, op hoofdlijnen, hoe dit doel bereikt wordt. Het gaat in op de structuur van TOOI als kennismodel.

De familie van TOOI-documenten

Dit document maakt deel uit van de familie van TOOI-documenten die gepubliceerd wordt op standaarden.overheid.nl/tooi.

Bovenstaande documenten vormen samen de normatieve specificatie van de TOOI-standaard. De TOOI-standaard wordt beheerd zoals beschreven in het niet-normatieve TOOI-beheerplan.

Feedback is welkom

Indien u vragen heeft, of op- of aanmerkingen wilt maken op dit document, dan vindt u hier hoe u dat publiekelijk of anoniem kunt doen.

Alle commentaar is welkom.

1. Wat is TOOI

TOOI is een afkorting van "Thesauri en Ontologieën voor Overheidsinformatie". TOOI is een kennismodel. Het doel van dit kennismodel is het definiëren van een gemeenschappelijke taal waarmee data en metadata uitgedrukt kunnen worden, zodat overheidsinformatie beter vindbaar, toegankelijk, interoperabel en herbruikbaar wordt.

1.1 Waarom TOOI

1.1.1 Doelstelling

De Nederlandse overheid wil dat officiële overheidsinformatie vindbaar, toegankelijk, interoperabel en herbruikbaar is. Dit zijn de vier pijlers van een verantwoorde informatiehuishouding. Een bekende publicatie uit 2016 in Nature gaat hier op in. Het beschrijft de definities van deze begrippen, het maatschappelijk belang dat deze vertegenwoordigen, en de principes dit mogelijk maken. Zie [fair].

Uitgangspunt bij dit alles is dat data en metadata waarde vertegenwoordigen die los staat van de systemen of context waarin ze ontstaan of beheerd worden. Naast de functionele eisen van een systeem zijn er dus andere factoren die bepalend zijn voor de vormgeving van de data en metadata. Dat zijn de FAIR-principes. FAIR is een afkorting van findable, accessible, interoperable, reusable.

In de context van officiële overheidsinformatie betekent dit het (zo veel mogelijk) hanteren van een gemeenschappelijke taal, los van specifieke informatiesystemen. Neem bijvoorbeeld een dataset met aantallen COVID-meldingen per gemeente en een dataset met aantallen inwoners per gemeente. Als beide datasets onder de noemer overheidsinformatie vallen (en betrekking hebben op dezelfde periode), dan moet een gebruiker ervan uit kunnen gaan dat beide lijsten dezelfde gemeenten hanteren, en op dezelfde manier naar die gemeenten verwijzen. Daarmee kunnen de lijsten moeiteloos gecombineerd worden, zonder conversies, transformaties en andere tijdrovende en dure handelingen. Vervolgens kan de gebruiker met behulp van hetzelfde taalelement waarmee in de datasets naar een gemeente wordt verwezen (in TOOI is dat een URI), gemeentelijke verordeningen ophalen voor nader onderzoek.

De doelstelling van TOOI is om deze gemeenschappelijke taal stapsgewijs formeel vast te leggen. TOOI is niet statisch: het zal zich incrementeel ontwikkelen. Het begint met een kennismodel dat volstaat om een minimale set van de meest urgente behoeften te kunnen invullen. In de toekomst breidt zich dat uit. Het is nadrukkelijk de bedoeling dat gebruikers van TOOI actief invloed hebben op dit groeiproces. Verderop gaan we dieper in op de onderhoudscyclus van de diverse onderdelen.

Het uiteindelijke doel — een betere informatiehuishouding voor overheidsinformatie — wordt beter benaderd naarmate TOOI intensiever gebruikt wordt bij de vormgeving van overheidsinformatie. De basisregel daarbij is: gebruik waar mogelijk taalelementen van TOOI. Dat zijn URIs, waarover straks meer. Dus in het genoemde voorbeeld is het een stap vooruit als de leveranciers van de datasets TOOI-URIs gebruiken om naar gemeenten te verwijzen. Ook is het een stap vooruit als in de metadata van de datasets TOOI-URIs worden gebruik om veldnamen en veldwaarden te benoemen. Het toepassen van TOOI is een specifiek geval van het toepassen van de algemene FAIR-principes. Dat betekent dat ook het gebruik van andere kennismodellen in combinatie met TOOI de informatiehuishouding verder verbetert.

1.1.2 Een aanpak gebaseerd op een kennismodel

Principe I-4 van de FAIR-principes stelt dat data en metadata bij voorkeur uitgedrukt dienen te worden een formele taal voor "kennisrepresentatie". Het geeigende instrument hiervoor is RDF [rdf11-concepts]. Binnen TOOI leidt dit tot een kennismodel (in het Engels: knowledge graph). Cruciaal daarbij is dat in TOOI feiten worden vastlegd over het te hanteren datamodel, maar ook over de wereld.

Enerzijds legt TOOI bijvoorbeeld vast dat een instantie van de klasse Gemeente altijd — modelmatig, dus per definitie — in een instantie van de klasse Provincie ligt. Daarnaast legt het kennismodel vast welke gemeenten en provincies er in de wereld bestaan, alsmede de URIs waarmee uniform naar die gemeenten en provincies wordt verwezen. TOOI omvat dus niet alleen een conceptualisatie (uitgedrukt in RDF: de TOOI-ontologie), maar ook een register met referentiegegevens over overheidsorganisaties. Het is van belang de ontologie, de thesauri, en de registers in samenhang en dus integraal te bezien — of liever gezegd: te onderhouden en te gebruiken.

1.1.3 Scope en relatie met andere ontwikkelingen

Officiële overheidsinformatie is het primaire aandachtsgebied van TOOI. Deze informatie wordt in discrete eenheden beschikbaar gemaakt. Deze noemen wij informatieobjecten. Overheidsorganisaties spelen daarbij een centrale rol: zij hebben het informatieobject gepubliceerd, ze zijn wettelijk verantwoordelijk voor de inhoud ervan, ze ontlenen hun bestaan en functie aan het informatieobject (bijvoorbeeld een instellingsbesluit), of ze zijn er op een andere manier expliciet aan gerelateerd.

De twee centrale begrippen in het kennismodel zijn daarom informatieobject en overheidsorganisatie. Voor beide geldt dat de beschrijving in termen van data en metadata een volledig beeld moet geven ten aanzien van aard, naamgeving en provenance (status en herkomst). Voor wat betreft overheidsorganisaties kijken we daarbij sterk naar die informatie die een rol speelt bij het metadateren van overheidspublicaties. Bij informatieobjecten ligt de focus op wettelijke eisen die aan metadata van overheidpublicaties gesteld worden, en op metadata die in de toepassingspraktijk belangrijk blijken.

Ontwikkelingen op bestuursrechtelijk gebied die relevant zijn voor TOOI zijn onder meer de Wet openbare overheidsinformatie, Wet elektronisch publicaties en de Omgevingswet.

Belangrijke spelers zijn data.overheid.nl en het digitaal stelsel omgevingswet (DSO), met name de ontwikkelingen rondom de standaard STOP [stop]. TOOI is echter niet specifiek en zeker niet exclusief voor deze platforms en gebruikscontexten ontworpen: het doel is om overheidsinformatie FAIR te maken: vindbaar, toegankelijk, interoperabel en herbruikbaar.

1.2 De opbouw van TOOI

Het TOOI-kennismodel is modulair opgebouwd en bestaat uit vele modules. Elk van deze modules vormt een eenheid van beheer, onderhoud en publicatie. Ze kennen onderling afhankelijkheden maar zijn intern sterk coherent. Binnen TOOI worden vier belangrijke typen van modules onderscheiden:

1.2.1 Ontologie

Een ontologie is een conceptualizatie uitgedrukt in RDF. Het beschrijft klassen en properties en bijbehorende bedrijfsregels. Een klasse is een verzameling individuën. Properties komen voor als predicaat in een statement: Gemeente Haarlem ligt-in Provincie Noord-Holland. In UML-diagrammen worden properties weergegeven als relaties of attributen.

De ontologie definieert een taal waarmee vervolgens een deel van de werkelijkheid eenduidig beschreven kan worden, zodat we daarover efficiënt en inzichtelijk kunnen communiceren en redeneren. Om met Plato te spreken: het doel is to cut reality at its joints (Plato, Faidros, 265e). De definities van klassen en properties in de ontologie worden vastgelegd met behulp van RDF [rdf11-concepts] en RDFS [rdf-schema].

Voor interoperabiliteit van data is een expliciete, eenduidige en logisch consistente ontologie een voorwaarde, zie bijvoorbeeld [offscm]. Meerduidigheid leidt bijvoorbeeld tot het probleem van “false agreement”: twee datasets lijken compatibel, maar zijn het door onverhoedse interpretatieverschillen niet. Daarmee is de kwaliteit van ontologie bepalend voor de kwaliteit van de data en metadata die ermee uitgedrukt worden.

Het TOOI-kennismodel definieert twee ontologieën:

Deze worden in detail beschreven in de betreffende documenten.

1.2.2 Thesauri

Een thesaurus is een gestructureerde verzameling begrippen die (onder meer) gebruikt kunnen worden bij het classificeren van objecten in diverse dimensies, zonder die begrippen verder uit te modelleren.

Thesauri binnen TOOI worden uitgedrukt in SKOS (Simple Knowledge Organization System), de bekende en veel gebruikte W3C-standaard die specifiek bedoeld is voor thesauri en andere kennissystemen [skos-reference]. SKOS is een van de standaarden op de 'pas-toe-of-leg-uit'-lijst van Forum Standaardisatie. Binnen de overheid is toepassing van deze standaard verplicht bij het vormgeven van een thesaurus.

Het TOOI-kennismodel omvat de volgende thesauri. Zie TOOI-thesauri voor een beschrijving van de algemene structuur van TOOI-thesauri, en hun onderhoudscyclus.

1.2.3 Registers

Een register is een gegevensverzameling waarin authentieke informatie wordt vastgelegd (gebruik makend van het semantisch model en thesauri). De registers in het TOOI-kennismodel leggen de referentiegegevens vast van overheidsorganisaties en een aantal andere objectsoorten. Dat betekent dat de registers gegevens bevatten die, in principe, een rechtsgrond hebben. Andersom is het niet zo dat alle gegevens die een rechtsgrond hebben per sé in het register worden opgenomen.

Gegevens die geen rechtsgrond hebben, zoals het kantooradres of telefoonnummer, horen niet in de registers thuis. De registers houden ook historie bij. Daarbij gaat het om de oprichting en opheffing van organisaties, maar ook om bijvoorbeeld het wijzigen van de officiële naam van een organisatie.

1.2.4 Waardelijsten

Een waardelijst is een statische gegevensverzameling die selectie bevat van informatie in het kennismodel in de toestand waar het kennismodel zich op zeker moment bevindt. Veel waardelijsten worden gegenereerd met oog op een bepaalde gebruikscontext en kunnen dus toepassingsspecifiek zijn. Het kennismodel verandert in de tijd, dus waardelijsten hebben versies. Versies van waardelijsten worden in verschillende formats gepubliceerd: TTL, RDF-XML, JSON-LD en "vanilla" XML. Waardelijsten kunnen gedownload worden vanaf de overzichtspagina

1.2.5 Ontwerppatronen voor classificatie: ontologie en thesaurus

TOOI maakt gebruik van twee patronen om classificatie mee te implementeren. RDFS [rdf-schema] kent een klassehiërarchie: klassen en subklassen. In veel gevallen worden strikte eisen gesteld aan de definitie van subklassen. Een voorbeeld is de eis dat elke subklasse expliciet gedefinieerde properties heeft die uniek zijn voor die subklasse. Soms is het niet mogelijk aan deze eisen te voldoen maar is het toch nodig te kunnen classificeren. In zulke gevallen wordt gebruik gemaakt van concepten uit een thesaurus die samen een taxonomie vormen, conform SKOS (zie [skos-reference]). Zulke concepten zijn dus instanties van skos:Concept. Vervolgens wordt er een specifieke property gedefinieerd met als waardebereik een (door een redacteur aanpasbare) verzameling concepten.

TOOI gebruikt dus twee ontwerppatronen om classificatie mee uit te drukken:

  • Subklassen, conform RDFS gedefinieerd in de ontologie
  • Classificatie op basis van een soortbegrip, conform SKOS gedefinieerd in een van de thesauri

Ter illustratie een voorbeeld: overheidsorganisaties. TOOI hanteert de conventie dat een subklasse van overheidsorganisatie alleen gedefinieerd wordt als deze voldoet aan een aantal criteria. Onder meer moet de subklasse juridisch scherp omlijnd zijn en daarom disjunct zijn met andere subklassen. De klassen tooiont:Gemeente en tooiont:Provincie zijn dan ook disjunct. Ze zijn goed omschreven en er is een lijst beschikbaar die de gemeenten en provincies limitatief opsomt.

Er zijn ook organisatiesoorten die niet voldoen aan deze criteria, zoals de soort adviescollege. Hiervoor definiëren TOOI een set concepten (een taxonomie) in de thesaurus, gegroepeerd onder het conceptschema tooikern:overheidsorganisatie. Vervolgens definiëren TOOI in de ontologie de eigenschap tooiont:organisatiesoort. De waarde van deze property is een concept uit het genoemde conceptschema. Hieronder vallen bijvoorbeeld de concepten "adviescollege" en "rechtsprekende instantie". Zie de paragraaf over dit onderwerp in het document TOOI-Ontologie.

Dit verschil heeft praktische consequenties. Om er twee te noemen:

  • Terwijl de subklassen van tooiont:Overheidsorganisatie gedefinieerd zijn als disjuncte subklassen, kan een overheidsorganisatie wél tot meerdere organisatiesoorten behoren
  • Een redacteur kan de thesaurus uitbreiden met een nieuwe organisatiesoort, maar alleen een ontoloog kan de ontologie verrijken met een nieuwe (sub-) klasse

Er is nog een belangrijk verschil tussen (ontologische) klassen en (taxonomische) concepten. Beide kunnen hiërarchieën vormen. Binnen een klassehiërarchie is er sprake van overerving: bedrijfsregels die van toepassing zijn op instanties van de superklasse zijn dat ook op instanties van de subklasse. Binnen een concepthiërarchie worden er geen bedrijfsregels gedefinieerd voor de concepten.

Het algemene patroon is dus dat sommige soorten classificatie uitgedrukt worden in termen van subklassen volgens RDFS, en andere soorten van classificatie in termen van een taxonomie volgens SKOS, waarbij TOOI dan een specifieke property benoemt met als waardebereik een (door een redacteur aanpasbare) verzameling concepten.

1.3 Afhankelijkheden

Het kennismodel gebruikt veel externe ontologieën en een aantal externe datasets. Daarmee sluit TOOI aan op een aantal Nederlandse, Europese en internationale standaarden en conventies. Voor een overzicht, zie de paragraaf Afhankelijkheden in TOOI-URI-strategie.

1.4 De onderhoudscyclus van het kennismodel

Zoals beschreven in de voorgaande paragraaf is het kennismodel opgebouwd uit onderdelen. Elk van deze onderdelen heeft een eigen onderhoudscyclus en wordt apart gepubliceerd. Het TOOI-kennismodel kent als zodanig geen release-cyclus. De onderdelen kennen dat wel: Er zijn oplopende versies van verschillende thesauri en van waardelijsten, en ook de ontologie kent versies. De registers worden niet geversioneerd. Het zijn "levende" grafen die regelmatig veranderen, in sommige gevallen met een hoge frequentie. De waardelijsten die van de registers worden afgeleid zijn uiteraard wel geversioneerd.

Een nieuwe versie van een module heeft soms wel, en soms niet impact op andere onderdelen. Zo zal een nieuwe versie van de thesaurus TOOI-Top (de thema-indeling overheidspublicaties) geen invloed hebben op andere onderdelen. Een nieuwe versie van de ontologie daarentegen zou kunnen leiden tot een nieuwe versie van bepaalde thesauri, bijvoorbeeld als daarin een nieuwe property wordt gedefineerd die de redacteur in bepaalde thesauri wil gebruiken. In de documentatie is per modulesoort een apart hoofdstuk opgenomen dat ingaat op de specifieke levenscyclus van die modulesoort.

Het algemene patroon daarbij is als volgt. De beheerder van TOOI voert wijzigingen door in de betreffende module . Vervolgens maakt de beheerder een geversioneerde afslag van de nieuwe versie, waarbij de versieaanduiding onderdeel is van de identificatie van de geversioneerde afslag (de baseURI). De inhoud van de ongeversioneerde variant en van de variant met versieaanduiding (de afslag) zijn verder identiek. Om de relaties vast te leggen tussen ongeversioneerde variant en afslagen, en tussen afslagen onderling, wordt gebruik gemaakt van PAV [pav], de specialisatie van PROV-O [prov-o] die een vocabulaire definieert speciaal voor dit doel.

Om de relatie tussen de werkversie en de identieke versie vast te leggen wordt pav:hasCurrentVersion gebruikt. De string die de versie aanduidt wordt vastgelegd als waarde van pav:version. De lijst van alle afslagen van de werkversie is de verzameling waarden van pav:hasVersion. Voor verdere concretisering, zie de betreffende passages voor de ontologie en de thesauri en de PAV-documentatie [pav].

A. Referenties

A.1 Informatieve referenties

[fair]
The FAIR Guiding Principles for scientific data management and stewardship. M. Wilkinson; M. Dumontier; I. Aalbersberg. Sci Data 3. 2016. URL: https://www.nature.com/articles/sdata201618
[offscm]
Ontological foundations for structural conceptual models. Giancarlo Guizzardi. University of Twente. 2005. URL: https://ris.utwente.nl/ws/portalfiles/portal/6042428/thesis_Guizzardi.pdf
[pav]
PAV - Provenance, Authoring and Versioning. Paolo Ciccarese; Stian Soiland-Reyes. URL: https://pav-ontology.github.io/pav/
[prov-o]
PROV-O: The PROV Ontology. Timothy Lebo; Satya Sahoo; Deborah McGuinness. W3C. 30 April 2013. W3C Recommendation. URL: https://www.w3.org/TR/prov-o/
[rdf-schema]
RDF Schema 1.1. Dan Brickley; Ramanathan Guha. W3C. 25 February 2014. W3C Recommendation. URL: https://www.w3.org/TR/rdf-schema/
[rdf11-concepts]
RDF 1.1 Concepts and Abstract Syntax. Richard Cyganiak; David Wood; Markus Lanthaler. W3C. 25 February 2014. W3C Recommendation. URL: https://www.w3.org/TR/rdf11-concepts/
[skos-reference]
SKOS Simple Knowledge Organization System Reference. Alistair Miles; Sean Bechhofer. W3C. 18 August 2009. W3C Recommendation. URL: https://www.w3.org/TR/skos-reference/
[stop]
Standaard voor Officiële Publicaties. KOOP. KOOP. URL: https://standaarden.overheid.nl/stop
KOOP Standaard - Vastgestelde versie