De hoofdlijnen voor aansluiten op Woo-index met zoekfunctie
Dit is versie 0.9.4 van de Handleiding voor de Woo-harvester. Aan dit document kunnen geen rechten worden ontleend.
Om aan te sluiten op de Woo-index moet een bestuursorgaan concreet de volgende stappen doorlopen:
- Verplicht: registreren in de Woo-index via het Register van Overheidsorganisaties
- Verplicht: aanmaken sitemaps en sitemap-indexbestanden in combinatie met robots.txt
- Aanbevolen: aanleveren van de beschikbare metadata via de sitemap.
Verplicht: registratie in de Woo-index via het Register van overheidsorganisaties (ROO)
Documentverzamelingen moeten worden geregistreerd via het Register van overheidsorganisaties. Deze stap is nodig om het bestaan en de locatie van een documentcollectie als zodanig voor burgers zichtbaar te maken in de Woo-index. Het registreren bestaat uit de volgende acties:
- Het aanmaken van één of meer documentverzamelingen, die als collectie op één URL benaderbaar zijn via een browser.
- Het (doen) registreren van deze URL('s), tezamen met de betreffende informatiecategorie en een toelichting, in de redactie-omgeving van het Register van overheidsorganisaties (ROO).
Door registratie van de URL's in de Woo-index worden voor de burger de documentverzamelingen vindbaar. Voor toegang tot de afzonderlijke documenten wordt naar deze collecties verwezen. Op de productpagina van de Woo-index is meer informatie te vinden over deze stap.
Om vanuit de Woo-index te kunnen zoeken en verwijzen naar individuele documenten is ook de volgende stap noodzakelijk.
Verplicht: aanmaken van sitemaps en sitemap-index-files in combinatie met robots.txt
Er is een eenduidige manier om ook de in de documentverzamelingen opgenomen documenten vindbaar te maken op het zoekportaal. Dit geschiedt door gebruik te maken van de sitemaps-standaard; een protocol dat wereldwijd wordt gebruikt om aan zoekmachines te vertellen waar en hoe te indexeren documenten kunnen worden gevonden. Aanvullend wordt de robots.txt-standaard gebruikt om aan zo'n zoekmachine te vertellen waar de sitemaps zich bevinden.
De Woo-harvester zal dagelijks langskomen om de sitemaps uit te lezen. Daardoor komt de Woo-harvester te weten waar de te indexeren openbare documenten staan. Documenten die reeds geïndexeerd zijn zullen worden genegeerd. Een bestuursorgaan geeft aan dat een reeds geïndexeerd document opnieuw door de Woo-harvester opgehaald moet worden door het lastmod-veld in te vullen of aan te passen.
De Woo-harvester leest uit de verwijsindex waar de documentverzamelingen zijn. De Woo-harvester gebruikt de geregistreerde URL's om daar de (sub)domeinen uit te halen. Voor de werking van het proces moet voor elk opgenomen (sub)domein in de root een robots.txt met bijbehorende sitemaps(index) aanwezig zijn.
Voorbeeld: van geregistreerde URL naar robots.txt en sitemapindex
- Een bestuursorgaan registreert in de verwijsindex de URL
www.bestuursorgaan.nl/woo-verzoeken
endocumenten.bestuursorgaan.nl/al-onze-andere-documenten/
- Woo-Harvester haalt beide URL's binnen en stript deze tot twee subdomeinen:
www.bestuursorgaan.nl
endocumenten.bestuursorgaan.nl
- Voor beide subdomeinen haalt de Woo-Harvester de robots.txt op:
www.bestuursorgaan.nl/robots.txt
documenten.bestuursorgaan.nl/robots.txt
- In de robots.txt staan verwijzingen naar sitemap-indexbestanden die voldoen aan de afgesproken naamgevingsconventie. Het staat een bestuursorgaan vrij om (ook) andere sitemaps te gebruiken (bijvoorbeeld teneinde indexatie door Bing of Google te optimaliseren); deze zullen door de Woo-harvester evenwel worden genegeerd.
Aanbevolen: aanleveren van metadata
Om de doorzoekbaarheid en de vindbaarheid van de actief openbaar gemaakte documenten te optimaliseren maakt de zoekfunctie gebruik van metadata. Deze handleiding beschrijft hoe deze metadata openbaar gemaakt wordt. Dit kan via opname van de metadata in de sitemap.
Er zijn verschillende manieren om metadata in de sitemap op te nemen:
- Opnemen van metadata in het TOOI-formaat. Er is een XML-schema beschikbaar om geldige TOOI-metadata op te nemen in de sitemap.
- Opnemen van naam/waarde-paren: combinaties van veldnamen en bijbehorende waarden
Bovenstaande manieren kunnen afzonderlijk gehanteerd worden maar zijn ook te combineren.
Momenteel wordt MDTO niet ondersteund en is daartoe ook nog niet besloten. Besluitvorming over het al dan niet gaan ondersteunen van MDTO is in voorbereiding.
De aanbevolen manier van het opnemen van metadata is het opnemen volgens het TOOI-formaat.