De hoofdlijnen voor aansluiten op Woo-index met zoekfunctie
Deze pagina beschrijft 0.9.8 van de publicatievoorwaarden van de Woo-harvester, het XML-schema en bijbehorende documentatie. Aan dit document kunnen geen rechten worden ontleend.
Om aan te sluiten op de Woo-index moet een bestuursorgaan concreet de volgende stappen doorlopen:
- Verplicht: registreren van de documentverzamelingen in de Woo-index van het Register van Overheidsorganisaties (ROO).
- Verplicht: aanmaken sitemaps en sitemap-indexbestanden in combinatie met een robots.txt bestand.
- Aanbevolen: per sitemap aanleveren van de beschikbare document metadata.
Verplicht: registratie in de Woo-index
Documentverzamelingen moeten worden geregistreerd in het Register van overheidsorganisaties (ROO). Deze stap is nodig om het bestaan en de locatie van een documentcollectie zichtbaar te maken in de Woo-index.
Het registreren bestaat uit de volgende acties:
- Het aanmaken van één of meer documentverzamelingen, die als collectie op één URL benaderbaar zijn via een browser.
- Het (doen) registreren van deze URL('s), tezamen met de betreffende informatiecategorie en een toelichting, in de redactie-omgeving van het Register van overheidsorganisaties (ROO).
Door registratie van de URL's in de Woo-index worden de documentverzamelingen voor de burger vindbaar. Voor de toegang tot de afzonderlijke documenten wordt naar deze collecties verwezen. Op de productpagina van de Woo-index is meer informatie te vinden over deze stap.
Om vanuit de Woo-index te kunnen zoeken en verwijzen naar individuele documenten is ook de volgende stap noodzakelijk.
Verplicht: aanmaken van sitemaps, sitemap-index-files en een robots.txt bestand
Er is een eenduidige manier om de in de documentverzamelingen opgenomen documenten vindbaar te maken op het zoekportaal. Er wordt hiervoor gebruik gemaakt van de sitemaps-standaard; een protocol dat wereldwijd wordt gebruikt om aan zoekmachines te vertellen waar en hoe te indexeren documenten kunnen worden gevonden. Aanvullend wordt het robots.txt bestand gebruikt om aan zo'n zoekmachine te vertellen waar de sitemaps zich bevinden.
De Woo-harvester leest uit de verwijsindex waar de documentverzamelingen zijn. De Woo-harvester gebruikt de geregistreerde URL's om daar de (sub)domeinen uit te halen. Voor de werking van het proces moet voor elk opgenomen (sub)domein in de root een robots.txt met bijbehorende sitemaps(index) aanwezig zijn.
De Woo-harvester zal dagelijks langskomen om de sitemaps uit te lezen. Daardoor komt de Woo-harvester te weten waar de te indexeren openbare documenten staan. Documenten die reeds geïndexeerd zijn zullen worden genegeerd. Een bestuursorgaan geeft aan dat een reeds geïndexeerd document opnieuw door de Woo-harvester opgehaald moet worden door het lastmod-veld in te vullen of aan te passen.
Voorbeeld: van geregistreerde URL naar robots.txt en sitemapindex
- Een bestuursorgaan registreert in de verwijsindex de URL
www.bestuursorgaan.nl/woo-verzoekenendocumenten.bestuursorgaan.nl/al-onze-andere-documenten/ - Woo-Harvester haalt beide URL's binnen en stript deze tot twee subdomeinen:
www.bestuursorgaan.nlendocumenten.bestuursorgaan.nl - Voor beide subdomeinen haalt de Woo-Harvester de robots.txt op:
www.bestuursorgaan.nl/robots.txtdocumenten.bestuursorgaan.nl/robots.txt
- In de robots.txt staan verwijzingen naar sitemap-indexbestanden die voldoen aan de afgesproken naamgevingsconventie. Het staat een bestuursorgaan vrij om (ook) andere sitemaps te gebruiken (bijvoorbeeld teneinde indexatie door Bing of Google te optimaliseren); deze zullen door de Woo-harvester evenwel worden genegeerd.
Aanbevolen: aanleveren van metadata
Om de doorzoekbaarheid en de vindbaarheid van de actief openbaar gemaakte documenten te optimaliseren maakt de zoekfunctie gebruik van document metadata. De document metadata wordt hierbij opgehaald uit de sitemaps.
Er zijn verschillende manieren om metadata in de sitemap op te nemen:
- Opnemen van metadata in het TOOI-formaat. Er is een XML-schema beschikbaar om geldige TOOI-metadata op te nemen in de sitemap.
- Opnemen van naam/waarde-paren: combinaties van veldnamen en bijbehorende waarden
Bovenstaande manieren kunnen afzonderlijk gehanteerd worden maar zijn ook te combineren. De aanbevolen manier van het opnemen van metadata is het opnemen volgens het TOOI-formaat.
In de toekomst zal het ook mogelijk zijn om metadata volgens de MDTO-specificatie in de sitemaps aan te leveren. Een concept-specificatie daarvan is opgenomen op de pagina MDTO als alternatief voor de modellering van de metadata. Het is nog niet besloten wanneer MDTO-aanleveringen door de woo-harvester verwerkt kunnen gaan worden.