Technische implementatie
Dit is versie 0.9.4 van de Handleiding voor de Woo-harvester. Aan dit document kunnen geen rechten worden ontleend.
Schema
Voor het aansluiten op sitemaps zonder aanbevelingen kan het bestuursorgaan gebruik
maken van het basisschema voor sitemaps: http://www.sitemaps.org/schemas/sitemap/0.9
Voor het aansluiten inclusief aanbevelingen voor het doorgeven van metadata is een XML-schema met de benodigde uitbreidingen beschikbaar.
Robots.txt
De Woo-harvester neemt de in de verwijsindex geregistreerde URL's als basis.
In de root van dat (sub)domein moet een robots.txt bestand opgenomen zijn met daarin verwijzingen naar sitemap-index bestanden.
Aandachtspunten bij de invulling van de sitemaps
Deze paragraaf geeft algemene technische aandachtspunten bij het invullen van de sitemaps.
Zie pagina 'Aanbevelingen voor metadata' voor nadere uitleg van de metadata velden die per document in de sitemaps meegegeven kunnen worden.
Doellocatie van de <loc>
verwijzing
In de sitemap moet de <loc>
direct verwijzen naar het te harvesten document. Verwijzing naar een html informatie-,
download- of verzamelpagina van documenten leidt tot niet werkende links op open.overheid.nl.
Het is mogelijk om documenten vanuit verschillende (sub)domeinen te harvesten maar
elk domein waarnaar in de <loc>
verwezen wordt moet geregistreerd zijn in ROO.
Protocol indicatie in de referentie naar document en resources
In de <loc>
tag verwijzing moet gebruik gemaakt worden van een https URL. Ook alle andere verwijzingen
naar resources in de sitemap dienen gebruik te maken van het https protocol.
Bestandsformaten
De Woo-harvester ondersteunt alleen bestandsformaten die voorkomen op de laatste versie
van de lijst PLOOI filetypes aansluitvoorwaarden. Het bestandsformaat kan in de metadata van het document worden meegegeven, in TOOI
tag <format>
. Als dit veld afwezig is dan zal de harvester proberen het bestandstype af te leiden
uit de mimetype van het bestand en/of via de bestandsextensie van de URL van het document
uit de <url><loc>
. Als dit niet lukt zal het betreffende document niet geharvested worden.
Tijdformaten
Zoals aangegeven in de meegeleverde XSD dienen dateTime velden aangeleverd worden conform type="xs:dateTime". Het is daarbij ook mogelijk zijn om met +/-hh:mm een tijdzone op te geven bij een dateTime.
Zie hierbij voorbeelden van tijdformaten die door de harvester ondersteund worden:
Voorbeeld | Toelichting |
---|---|
2023-11-21T09:00:00 | lokale tijd in Nederland (CET) (YYYY-MM-DDThh:mm:ss) |
2023-04-04T08:00:00Z | Zulu tijd = UTC tijd |
2023-11-21T09:00:00T+01:00 | tijd notatie aangegeven als 1 uur offset t.o.v. UTC |
De tijden worden op open.overheid.nl weergegeven als (teruggerekend naar) CET tijd.