Sitemapindex en Sitemaps
Dit is versie 0.9.3 van de Handleiding voor de Woo-harvester. Aan dit document kunnen geen rechten worden ontleend.
Het sitemapprotocol
Het sitemapsprotocol beschrijft twee soorten bestanden:
- sitemapbestanden, waarin verwijzingen naar te indexeren bestanden staan,
- sitemapindexbestanden, waarin verwijzingen naar sitemapbestanden staan.
Elk sitemapbestand bevat maximaal 50.000 verwijzingen en elk sitemapindexbestand bevat maximaal 50.000 verwijzigingen naar sitemapbestanden. Verder is de maximale grootte van een sitemapindexbestand en sitemapbestand 50MB.
Zoekmachines vinden sitemaps via de robots.txt van de hele site.
Toepassing binnen deze aansluitvoorwaarden en aanbevelingen
Door sitemaps aan de Woo-harvester aan te bieden, is het niet nodig dat de Woo-harvester kennis heeft van de opbouw van de site zelf. De Woo-harvester hoeft bijvoorbeeld niet te weten hoe deze via een overzichtspagina met navigatielinks een complete verzameling documenten moet ophalen: de sitemap vertelt gewoon waar alle documenten staan. Hierdoor hoeven ook geen eisen te worden gesteld aan de opbouw van de site.
Elke sitemap moet opgenomen worden in een sitemapindexbestand. Hiertoe moeten de sitemapindex bestanden voldoen aan de naamgevingsconventie zoals hieronder beschreven. Sitemapindex bestanden die niet voldoen aan deze naamgevingsconventie worden niet uitgelezen.
De Woo-harvester identificeert een document aan de hand van een URL in de sitemap. Als een document in meerdere sitemaps opgenomen wordt, dan beschouwt de Woo-harvester deze als gelijkwaardig en zal er een willekeurige geïndexeerd worden. De Woo-harvester identificeert een document aan de hand van de URL.
Een sitemap-bestand kent per url
de volgende velden:
loc
: verplicht veld waarin de URL naar het document is opgenomen. Hiermee identificeert de Woo-harvester het document.lastmod
: geeft aan de Woo-harvester aan wanneer de laaste update van dit document was. De Woo-harvester herkent hieraan of een bestand opnieuw opgehaald moet worden. Als lastmod niet gevuld is, dan gaat de Woo-harvester ervan uit dat dit document niet gewijzigd is.changefreq
: deze indicatie wordt genegeerd.priority
: deze indicatie wordt genegeerd.
De harvester interpreteert de loc
en lastmod
velden in de sitemaps als volgt:
loc
:
De Woo-harvester haalt alleen de genoemde locatie op en volgt niet zelfstandig links naar andere URLs die in het opgehaalde document kunnen staan.
lastmod
:
De Woo-harvester bepaalt voor reeds eerder aangeboden documenten alleen op basis van
het lastmod
-veld of een document opnieuw opgehaald moet worden en of de metadata opnieuw verwerkt
moet worden. Als een document wordt gewijzigd, of als een document tijdelijk uit de
sitemap wordt verwijderd en daarna daar weer aan toegevoegd wordt met dezelfde loc
indicatie, dan dient de <lastmod>
-tag voor het document toegevoegd te worden aan de sitemap. De betreffende datum wordt
op open.overheid.nl getoond in veld “laatst gewijzigd”.
Naamgeving van informatiecategorieën
Elk document dat via de harvester wordt opgehaald moet toegekend worden aan één of meerdere informatiecategorieen, uit de waardelijst voor Woo-informatiecategorieën.
De naamgevingsconventie kent twee varianten:
- Variant 1, zonder opgave van informatiecategorie: sitemapindex-diwoo.xml
- Variant 2, met opgave van informatiecategorie: sitemapindex-diwoo-infocat00n.xml
Bij variant 1 dient de informatiecategorie in de sitemaps opgenomen te worden in de
metadata bij elk document, middels TOOI veld informatiecategorie
. Met deze optie is het ook mogelijk om meerdere informatiecategorieën aan één document
toe te kennen. Als de informatiecategorie niet bepaald kan worden dan wordt deze als
"onbekend" gemapped.
Bij variant 2 wordt de informatiecategorie van een document afgeleid uit de naam van het corresponderende sitemapindexbestand, conform onderstaande tabel:
Informatiecategorie | Toelichting in de Woo | Naam sitemapindexbestand |
---|---|---|
Wetten en algemeen verbindende voorschriften | 3.3, 1, a | sitemapindex-diwoo-infocat001.xml |
Overige besluiten van algemene strekking | 3.3, 1, b | sitemapindex-diwoo-infocat002.xml |
Ontwerpen van wet- en regelgeving met adviesaanvraag | 3.3, 1, c | sitemapindex-diwoo-infocat003.xml |
Organisatie en werkwijze | 3.3, 1, d | sitemapindex-diwoo-infocat004.xml |
Bereikbaarheidsgegevens | 3.3, 1, e | sitemapindex-diwoo-infocat005.xml |
Bij vertegenwoordigende organen ingekomen stukken | 3.3, 2, a | sitemapindex-diwoo-infocat006.xml |
Vergaderstukken Staten-Generaal | 3.3, 2, b | sitemapindex-diwoo-infocat007.xml |
Vergaderstukken decentrale overheden | 3.3, 2, c | sitemapindex-diwoo-infocat008.xml |
Agenda's en besluitenlijsten bestuurscolleges | 3.3, 2, d | sitemapindex-diwoo-infocat009.xml |
Adviezen | 3.3, 2, e | sitemapindex-diwoo-infocat010.xml |
Convenanten | 3.3, 2, f | sitemapindex-diwoo-infocat011.xml |
Jaarplannen en jaarverslagen | 3.3, 2, g | sitemapindex-diwoo-infocat012.xml |
Subsidieverplichtingen anders dan met beschikking | 3.3, 2, h | sitemapindex-diwoo-infocat013.xml |
Woo-verzoeken en -besluiten | 3.3, 2, i | sitemapindex-diwoo-infocat014.xml |
Onderzoeksrapporten | 3.3, 2, j | sitemapindex-diwoo-infocat015.xml |
Beschikkingen | 3.3, 2, k & 3.3a | sitemapindex-diwoo-infocat016.xml |
Klachtoordelen | 3.3, 2, l & 3.3a | sitemapindex-diwoo-infocat017.xml |