De hoofdlijnen voor aansluiten op Woo-index met zoekfunctie

Om aan te sluiten op de Woo-index moet een bestuursorgaan concreet de volgende stappen doorlopen:

  • Verplicht: registreren in de Woo-index via het Register van Overheidsorganisaties
  • Verplicht: aanmaken sitemaps en sitemap-indexbestanden in combinatie met robots.txt
  • Verplicht: aanleveren van de beschikbare metadata via de sitemap. Hier zijn twee manieren voor het vullen van de metadata: het TOOI-formaat of eigen metadatavelden in naam/waarde-paren. Deze manieren zijn ook met elkaar te combineren.
  • Aanbeveling: Het aanbevolen formaat voor aanleveren van metadata is TOOI

Verplicht: registratie in de Woo-index via het Register van overheidsorganisaties (ROO)

Documentverzamelingen moeten worden geregistreerd via het Register van overheidsorganisaties. Deze stap is nodig om het bestaan en de locatie van een documentcollectie als zodanig voor burgers zichtbaar te maken in de Woo-index. Het registreren bestaat uit de volgende stappen:

  • Het aanmaken van één of meer documentverzamelingen, die als collectie op één URL benaderbaar zijn via een browser.
  • Het (doen) registreren van deze URL('s), tezamen met de betreffende informatiecategorie en een toelichting, in de redactie-omgeving van het Register van overheidsorganisaties (ROO).

Door registratie van de URL's in de Woo-index worden voor de burger de documentverzamelingen vindbaar. Voor toegang tot de afzonderlijke documenten wordt naar deze collecties verwezen. Om vanuit de Woo-index te kunnen zoeken en verwijzen naar individuele documenten is ook de volgende stap noodzakelijk. Op de productpagina van de Woo-index is meer informatie te vinden over deze stap.

Verplicht: aanmaken van sitemaps en sitemap-index-files in combinatie met robots.txt

Er is een eenduidige manier om ook de in de documentverzamelingen opgenomen documenten vindbaar te maken op het zoekportaal. Dit geschiedt door gebruik te maken van de sitemaps-standaard; een protocol dat wereldwijd wordt gebruikt om aan zoekmachines te vertellen waar en hoe te indexeren documenten kunnen worden gevonden. Aanvullend wordt de robots.txt-standaard gebruikt om aan zo'n zoekmachine te vertellen waar de sitemaps zich bevinden. De Woo-harvester zal dagelijks langskomen om de sitemaps uit te lezen. Daardoor komt de Woo-harvester te weten waar de te indexeren openbare documenten staan. Documenten die reeds geïndexeerd zijn zullen - voor die dag - worden genegeerd. Een bestuursorgaan geeft aan dat een reeds geïndexeerd document opnieuw door de Woo-harvester opgehaald moet worden door het lastmod-veld in te vullen.

De Woo-harvester leest uit de verwijsindex waar de documentverzamelingen zijn. De Woo-harvester gebruikt de geregistreerde URL's om daar de (sub)domeinen uit te halen. Voor de werking van het proces moet voor elk opgenomen (sub)domein in de root een robots.txt met bijbehorende sitemaps(index) aanwezig zijn.

  • Het produceren van één sitemap-index per informatiecategorie en een of meerdere sitemaps per informatiecategorie, conform de in deze handleiding beschreven specificaties.
  • Het opnemen van het adres naar de sitemap-index(en) in een robots.txt-bestand.

Voorbeeld: van geregistreerde URL naar robots.txt en sitemapindex

  1. Bestuursorgaan registreert in de verwijsindex de URL www.bestuursorgaan.nl/woo-verzoeken en documenten.bestuursorgaan.nl/al-onze-andere-documenten/
  2. Woo-Harvester haalt beide URL's binnen en stript deze tot twee subdomeinen: www.bestuursorgaan.nl en documenten.bestuursorgaan.nl
  3. Voor beide subdomeinen haalt de Woo-Harvester de robots.txt op:
    • www.bestuursorgaan.nl/robots.txt
    • documenten.bestuursorgaan.nl/robots.txt
  4. In de robots.txt staan verwijzingen naar sitemap-indexbestanden die voldoen aan de afgesproken naamgevingsconventie. Het staat een bestuursorgaan vrij om (ook) andere sitemaps te gebruiken (bijvoorbeeld teneinde indexatie door Bing of Google te optimaliseren); deze zullen door de Woo-harvester evenwel worden genegeerd.

Verplicht: aanleveren van metadata

Om de doorzoekbaarheid en de vindbaarheid van de actief openbaar gemaakte documenten te optimaliseren maakt de zoekfunctie gebruik van metadata. Deze handleiding beschrijft hoe deze metadata openbaar gemaakt moet worden. Dit moet via opname in de sitemap.

Er zijn verschillende manieren om metadata in de sitemap op te nemen:

  • Opnemen van metadata in het TOOI-formaat. Er is een XML-schema beschikbaar om geldige TOOI-metadata op te nemen in de sitemap.
  • Opnemen in een ander formaat dan TOOI. Dit kan met behulp van naam/waarde-paren waarin combinaties van elk denkbare veldnaam met bijbehorende waarde kunnen worden opgenomen.
  • Bovenstaande manieren kunnen afzonderlijk gehanteerd worden maar zijn ook te combineren.

Momenteel wordt MDTO niet ondersteund en is daartoe ook nog niet besloten. Besluitvorming over het al dan niet gaan odnersteunen van MDTO is in voorbereiding.

De aanbevolen manier van het opnemen van metadata is het opnemen volgens het TOOI-formaat.