Sitemapindex en Sitemaps
Dit is versie 0.9.4 van de Handleiding voor de Woo-harvester. Aan dit document kunnen geen rechten worden ontleend.
Het sitemapprotocol
Het sitemapsprotocol beschrijft twee soorten bestanden:
- sitemapbestanden, waarin verwijzingen naar te indexeren bestanden staan;
- sitemapindexbestanden, waarin verwijzingen naar sitemapbestanden staan.
Elk sitemapbestand bevat maximaal 50.000 verwijzingen. Elk sitemapindexbestand bevat maximaal 50.000 verwijzingen naar sitemapbestanden. Verder is de maximale grootte van een sitemapindexbestand en sitemapbestand 50MB.
Zoekmachines vinden sitemaps via de robots.txt
van de hele site.
Toepassing binnen deze aansluitvoorwaarden en aanbevelingen
Door sitemaps aan de Woo-harvester aan te bieden, is het niet nodig dat de Woo-harvester kennis heeft van de opbouw van de site zelf. De Woo-harvester hoeft bijvoorbeeld niet te weten hoe deze via een overzichtspagina met navigatielinks een complete verzameling documenten moet ophalen: de sitemap vertelt gewoon waar alle documenten staan. Hierdoor hoeven ook geen eisen te worden gesteld aan de opbouw van de site.
De volgende elementen zijn vereist voor de werking van de harvester:
- één bestand
robots.txt
- sitemapindexbestanden (één of meer)
- sitemapbestanden (één of meer)
- document-URLs met daarin verwijzing naar documenten en metadata
met de volgende onderliggende relaties:
robots.txt
bevat een lijst van één of meerdere sitemapindexbestanden.- Elk sitemapindexbestand bevat een lijst van één of meerdere sitemaps.
- Elk sitemapbestand bevat een lijst van één of meerdere sitemaps document specificaties (document-URL en metadata).
De harvester gaat er van uit dat er, per bestuursorgaan, maar één robots.txt
is dat aan deze voorwaarden voldoet; als er meerdere gevonden worden dan wordt het
eerste gevonden robots.txt
gelezen, de overige worden dan genegeerd.
Voorbeeldbestanden zijn te vinden op pagina Sitemap-voorbeelden.
Bij het harvesten gaat de harverster er dus van uit dat de relatie tussen robots.txt
en sitemapbestanden altijd gelegd wordt via een sitemapindexbestand. Dit is nodig om, via een hieronder beschreven naamgevingsconventie,
te achterhalen wat de informatiecategorie is van de 'onderliggende' sitemaps en daarmee, van de in die sitemaps opgenomen documenten;
zie paragraaf 'Naamgeving van informatiecategorieën' hieronder.
Nadere uitleg van de velden in de sitemapbestanden (per url
):
loc
:
Verplicht veld waarin de URL naar het document is opgenomen. Hiermee identificeert de Woo-harvester het document. Als een document in meerdere sitemaps opgenomen wordt, dan beschouwt de Woo-harvester deze als gelijkwaardig en zal er een willekeurige verwerkt worden. De Woo-harvester haalt alleen de genoemde locatie op en volgt niet zelfstandig links naar andere URLs die in het opgehaalde document kunnen staan.
lastmod
:
Dit veld geeft de laatste update van het document aan; gebruik hiervoor een geldig tijdformaat. De Woo-harvester herkent hieraan of een bestand opnieuw opgehaald moet worden. De
betreffende datum wordt op open.overheid.nl
getoond in veld “laatst gewijzigd”. Als lastmod
niet gevuld of geactualiseerd is, dan gaat de Woo-harvester ervan uit dat dit document
niet gewijzigd is, en dus niet (opnieuw) verwerkt hoeft te worden. Ook ‘technische’
aanpassingen in de XML, bijvoorbeeld correctie van de layout van metadatavelden, zullen
alléén opgepakt worden door de harvester als de lastmod
voor het betreffende document is aangepast. Ook als een document uit de sitemap wordt
verwijderd en daarna daar weer aan toegevoegd wordt met dezelfde <loc>
-indicatie moet de lastmod
-tag voor het document bijgewerkt worden.
changefreq
:
Deze indicatie wordt genegeerd.
priority
:
Deze indicatie wordt genegeerd.
Naamgeving van informatiecategorieën
Elk document dat via de harvester wordt opgehaald moet toegekend worden aan één of meerdere informatiecategorieen, uit de waardelijst voor Woo-informatiecategorieën.
Hiertoe wordt er een naamgevingsconventie voor de sitemapindexbestanden toegepast:
- Variant 1, zonder opgave van informatiecategorie: sitemapindex-diwoo.xml
- Variant 2, met opgave van informatiecategorie: sitemapindex-diwoo-infocat00n.xml
Sitemapindexbestanden die niet voldoen aan (de exacte schrijfwijze van) deze naamgevingsconventie worden niet uitgelezen.
Bij variant 1 dient de informatiecategorie in de sitemaps opgenomen te worden in de metadata bij elk document, middels TOOI-veld informatiecategorie. Met deze optie is het ook mogelijk om meerdere informatiecategorieën aan één document toe te kennen. Als de informatiecategorie niet bepaald kan worden dan wordt deze als "onbekend" opgenomen.
Bij variant 2 wordt de informatiecategorie van een document afgeleid uit de naam van het corresponderende sitemapindexbestand, conform onderstaande tabel:
Informatiecategorie | Toelichting in de Woo | Naam sitemapindexbestand |
---|---|---|
Wetten en algemeen verbindende voorschriften | 3.3, 1, a | sitemapindex-diwoo-infocat001.xml |
Overige besluiten van algemene strekking | 3.3, 1, b | sitemapindex-diwoo-infocat002.xml |
Ontwerpen van wet- en regelgeving met adviesaanvraag | 3.3, 1, c | sitemapindex-diwoo-infocat003.xml |
Organisatie en werkwijze | 3.3, 1, d | sitemapindex-diwoo-infocat004.xml |
Bereikbaarheidsgegevens | 3.3, 1, e | sitemapindex-diwoo-infocat005.xml |
Bij vertegenwoordigende organen ingekomen stukken | 3.3, 2, a | sitemapindex-diwoo-infocat006.xml |
Vergaderstukken Staten-Generaal | 3.3, 2, b | sitemapindex-diwoo-infocat007.xml |
Vergaderstukken decentrale overheden | 3.3, 2, c | sitemapindex-diwoo-infocat008.xml |
Agenda's en besluitenlijsten bestuurscolleges | 3.3, 2, d | sitemapindex-diwoo-infocat009.xml |
Adviezen | 3.3, 2, e | sitemapindex-diwoo-infocat010.xml |
Convenanten | 3.3, 2, f | sitemapindex-diwoo-infocat011.xml |
Jaarplannen en jaarverslagen | 3.3, 2, g | sitemapindex-diwoo-infocat012.xml |
Subsidieverplichtingen anders dan met beschikking | 3.3, 2, h | sitemapindex-diwoo-infocat013.xml |
Woo-verzoeken en -besluiten | 3.3, 2, i | sitemapindex-diwoo-infocat014.xml |
Onderzoeksrapporten | 3.3, 2, j | sitemapindex-diwoo-infocat015.xml |
Beschikkingen | 3.3, 2, k & 3.3a | sitemapindex-diwoo-infocat016.xml |
Klachtoordelen | 3.3, 2, l & 3.3a | sitemapindex-diwoo-infocat017.xml |