Technische implementatie

Schema

Voor het aansluiten op sitemaps zonder aanbevelingen kan het bestuursorgaan gebruik maken van het basisschema voor sitemaps: http://www.sitemaps.org/schemas/sitemap/0.9

Voor het aansluiten inclusief aanbevelingen voor het doorgeven van metadata is een XML-schema met de benodigde uitbreidingen beschikbaar.

Robots.txt

De Woo-harvester neemt de in de verwijsindex geregistreerde URL's als basis.

In de root van dat (sub)domein moet een robots.txt bestand opgenomen zijn met daarin verwijzingen naar sitemap-index bestanden.

Aandachtspunten bij de invulling van de sitemaps

Deze paragraaf geeft algemene technische aandachtspunten bij het invullen van de sitemaps.

Zie pagina 'Aanbevelingen voor metadata' voor nadere uitleg van de metadata velden die per document in de sitemaps meegegeven kunnen worden.

Doellocatie van de <loc> verwijzing

In de sitemap moet de <loc> direct verwijzen naar het te harvesten document. Verwijzing naar een html informatie-, download- of verzamelpagina van documenten leidt tot niet werkende links op open.overheid.nl. Het is mogelijk om documenten vanuit verschillende (sub)domeinen te harvesten maar elk domein waarnaar in de <loc> verwezen wordt moet geregistreerd zijn in ROO.

Protocol indicatie in de referentie naar document en resources

In de <loc> tag verwijzing moet gebruik gemaakt worden van een https URL. Ook alle andere verwijzingen naar resources in de sitemap dienen gebruik te maken van het https protocol.

Bestandsformaten

De Woo-harvester ondersteunt alleen bestandsformaten die voorkomen op de laatste versie van de lijst PLOOI filetypes aansluitvoorwaarden. Het bestandsformaat kan in de metadata van het document worden meegegeven, in TOOI tag <format>. Als dit veld afwezig is dan zal de harvester proberen het bestandstype af te leiden uit de mimetype van het bestand en/of via de bestandsextensie van de URL van het document uit de <url><loc>. Als dit niet lukt zal het betreffende document niet geharvested worden.

Tijdformaten

Zoals aangegeven in de meegeleverde XSD dienen dateTime velden aangeleverd worden conform type="xs:dateTime". Het is daarbij ook mogelijk zijn om met +/-hh:mm een tijdzone op te geven bij een dateTime.

Zie hierbij voorbeelden van tijdformaten die door de harvester ondersteund worden:

Voorbeeld Toelichting
2023-11-21T09:00:00 lokale tijd in Nederland (CET) (YYYY-MM-DDThh:mm:ss)
2023-04-04T08:00:00Z Zulu tijd = UTC tijd
2023-11-21T09:00:00T+01:00 tijd notatie aangegeven als 1 uur offset t.o.v. UTC

De tijden worden op open.overheid.nl weergegeven als (teruggerekend naar) CET tijd.