Sitemapindex en Sitemaps

Het sitemapprotocol

Het sitemapsprotocol beschrijft twee soorten bestanden:

  • sitemapbestanden, waarin verwijzingen naar te indexeren bestanden staan,
  • sitemapindexbestanden, waarin verwijzingen naar sitemapbestanden staan.

Elk sitemapbestand bevat maximaal 50.000 verwijzingen en elk sitemapindexbestand bevat maximaal 50.000 verwijzigingen naar sitemapbestanden. Verder is de maximale grootte van een sitemapindexbestand en sitemapbestand 50MB.

Zoekmachines vinden sitemaps via de robots.txt van de hele site. Voor een beschrijving van robots.txt, zie hieronder. 

Toepassing binnen deze aansluitvoorwaarden en aanbevelingen

Door sitemaps aan de Woo-harvester aan te bieden, is het niet nodig dat de Woo-harvester kennis heeft van de opbouw van de site zelf. De Woo-harvester hoeft bijvoorbeeld niet te weten hoe deze via een overzichtspagina met navigatielinks een complete verzameling documenten moet ophalen: de sitemap vertelt gewoon waar alle documenten staan. Hierdoor hoeven ook geen eisen te worden gesteld aan de opbouw van de site. 

Ten behoeve van de Woo-harvester moeten sitemapindexbestanden worden aangemaakt die voldoen aan een naamgevingsconventie gebaseerd op de informatiecategorie. Alle andere sitemapindexbestanden zal de Woo-harvester negeren. 

Voor elke informatiecategorie kan een site maximaal 1 sitemapindexbestand opgeven. 

De Woo-harvester leest een sitemapindexbestand die voldoet aan de naamgevingsconventie uit. Alle sitemapbestanden die hierin genoemd zijn, worden door de Woo-harvester verwerkt. De te indexeren documenten worden toegekend aan de informatiecategorie die via de naamgevingsconventie is af te leiden. 

Documenten hoeven in slechts één sitemap-bestand worden opgenomen. Als een document in meerdere sitemaps opgenomen wordt, dan beschouwt de Woo-harvester deze als gelijkwaardig en zal er een willekeurige geïndexeerd worden. De Woo-harvester identificeert een document aan de hand van de URL.

Een sitemap-bestand kent per url de volgende velden:

  • loc: verplicht veld waarin de URL naar het document is opgenomen. Hiermee identificeert de Woo-harvester het document.
  • lastmod: geeft aan de Woo-harvester aan wanneer de laaste update van dit document was. De Woo-harvester herkent hieraan of een bestand opnieuw opgehaald moet worden. Als lastmod niet gevuld is, dan gaat de Woo-harvester ervan uit dat dit document niet gewijzigd is.
  • changefreq: deze indicatie wordt genegeerd. 
  • priority: deze indicatie wordt genegeerd.

De sitemap kan worden uitgebreid met metadata per document, zie hieronder. 

Een sitemapindexbestand kent per sitemap de volgende velden:

  • loc: verplicht veld waarin de URL naar de sitemap is opgenomen. De Woo-harvester zal de sitemap uitlezen en de documenten harvesten.
  • lastmod: deze indicatie wordt genegeerd.

Specifiek Gedrag

Gedrag van de Woo-harvester met betrekking tot de sitemap.xml: 

  • De Woo-harvester haalt alleen de genoemde locatie op en volgt niet zelfstandig links naar andere URLs die in het opgehaalde document kunnen staan. 
  • De Woo-harvester bepaalt voor reeds eerder aangeboden documenten alleen op basis van het lastmod-veld of een document opnieuw opgehaald moet worden en of de metadata opnieuw verwerkt moet worden.

Naamgevingsconventie

De naamgevingsconventie kent twee varianten: 

  • Variant 1, zonder opgave van informatiecategorie: sitemapindex-diwoo.xml
  • Variant 2, met opgave van informatiecategorie: sitemapindex-diwoo-infocat00n.xml

Bij variant 2 wordt dan de volgende tabel gebruikt om de informatiecategorie op te geven: 

Informatiecategorie Toelichting in de Woo Naam sitemapindexbestand
Wetten en algemeen verbindende voorschriften 3.3, 1, a sitemapindex-diwoo-infocat001.xml
Overige besluiten van algemene strekking 3.3, 1, b sitemapindex-diwoo-infocat002.xml
Ontwerpen van wet- en regelgeving met adviesaanvraag 3.3, 1, c sitemapindex-diwoo-infocat003.xml
Organisatie en werkwijze 3.3, 1, d sitemapindex-diwoo-infocat004.xml
Bereikbaarheidsgegevens 3.3, 1, e sitemapindex-diwoo-infocat005.xml
Bij vertegenwoordigende organen ingekomen stukken 3.3, 2, a sitemapindex-diwoo-infocat006.xml
Vergaderstukken Staten-Generaal 3.3, 2, b sitemapindex-diwoo-infocat007.xml
Vergaderstukken decentrale overheden 3.3, 2, c sitemapindex-diwoo-infocat008.xml
Agenda's en besluitenlijsten bestuurscolleges 3.3, 2, d sitemapindex-diwoo-infocat009.xml
Adviezen 3.3, 2, e sitemapindex-diwoo-infocat010.xml
Convenanten 3.3, 2, f sitemapindex-diwoo-infocat011.xml
Jaarplannen en jaarverslagen 3.3, 2, g sitemapindex-diwoo-infocat012.xml
Subsidieverplichtingen anders dan met beschikking 3.3, 2, h sitemapindex-diwoo-infocat013.xml
Woo-verzoeken en -besluiten 3.3, 2, i sitemapindex-diwoo-infocat014.xml
Onderzoeksrapporten 3.3, 2, j sitemapindex-diwoo-infocat015.xml
Beschikkingen 3.3, 2, k & 3.3a sitemapindex-diwoo-infocat016.xml
Klachtoordelen 3.3, 2, l & 3.3a sitemapindex-diwoo-infocat017.xml