Technische implementatie

Harvester user-agent en ip-adres

Onze WooHarvester gebruikt de volgende settings:

  • naam user agent (case-sensitive): WooHarvester
  • ip-adres (productie): 147.181.37.26

Schema

Voor het aansluiten op sitemaps zonder aanbevelingen kan het bestuursorgaan gebruik maken van het basisschema voor sitemaps: http://www.sitemaps.org/schemas/sitemap/0.9

Voor het aansluiten inclusief aanbevelingen voor het doorgeven van metadata is een XML-schema met de benodigde uitbreidingen beschikbaar.

Robots.txt

De Woo-harvester neemt de in de verwijsindex geregistreerde URL's als basis.

In de root van dat (sub)domein moet een bestand met naam robots.txt opgenomen zijn met daarin verwijzingen naar sitemap-index bestanden.

Zie pagina Sitemapindex en sitemaps voor een nadere toelichting hierop.

Als er een Disallow is opgenomen in het robots.txt bestand dan zullen wij de opgenomen sitemap(index)bestanden niet harvesten.

Aandachtspunten bij de technische implementatie

Deze paragraaf geeft algemene technische aandachtspunten bij het invullen van de sitemaps.

Zie pagina Aanbevelingen voor metadata voor nadere uitleg van de metadata velden die per document in de sitemaps meegegeven kunnen worden.

Aanbevolen wordt om invulling van de sitemaps te valideren met de beschikbare XSD (zie tips voor de werkwijze daarvoor op deze pagina).

Doellocatie van de <loc> verwijzing in de sitemaps

De <loc>-verwijzing wordt door de harvester geïnterpreteerd als een unieke identificatie van een document.

In de sitemap moet de <loc> direct verwijzen naar het te harvesten document. Verwijzing naar een html-pagina met extra informatie-, een download- of een verzamelpagina van documenten leidt tot niet-werkende links op open.overheid.nl.

Cross-domain

Het is mogelijk om documenten vanuit verschillende (sub)domeinen te harvesten. Elk domein waarnaar in de <loc> verwezen wordt moet onderdeel uitmaken van een geregistreerde URL in het ROO. Dit geldt ook de voor (domeinen van de) sitemapindexbestanden die in robots.txt zijn opgenomen. Zie voor nadere informatie sitemap.org.

Meerdere publishers op hetzelfde domein

Zoals vermeld in pagina Aanbevelingen voor metadata: met TOOI-veld <publisher> kan worden aangegeven wie de publisher van een bepaald document is. Dit is de aanbevolen methode om, vanuit één domein, documenten van meerdere bestuursorganen te (laten) publiceren.

Protocol-indicatie in de referentie naar document en resources

In de <loc> tag verwijzing moet gebruik gemaakt worden van een https-URL. Ook alle andere verwijzingen naar resources in de sitemap dienen gebruik te maken van het https-protocol.

Certificaten

In de harvester wordt geen beheerde lijst van certificaten per bestuursorgaan bijgehouden. Om eventuele problemen met certificaten te voorkomen wordt aanbevolen om een SSL-checker te gebruiken op de URL van uw documentverzameling / webserver; eventuele issues die daar getoond worden moeten opgelost worden om verwerkingsproblemen met de harvester te voorkomen.

Bestandsformaten

De Woo-harvester ondersteunt alleen bestandsformaten die voorkomen op de laatste versie van de lijst PLOOI filetypes aansluitvoorwaarden. Het bestandsformaat kan in de metadata van het document worden meegegeven, in TOOI tag <format>. Als dit veld afwezig is dan zal de harvester proberen het bestandstype af te leiden uit de mimetype van het bestand en/of via de bestandsextensie van de URL van het document uit de <url><loc>. Als dit niet lukt zal het betreffende document niet geharvested worden.

Eén van de ondersteunde bestandsformaten is .zip. Zip-bestanden worden niet automatisch uitgepakt maar zullen zonder verdere verwerking weergegeven worden op het portaal, als downloadbaar bestand.

Zoals hierboven al aangegeven ondersteunen we geen links in html-bestanden. Het aanleveren van html-bestanden wordt daarom afgeraden. Het is beter om afzonderlijke, downloadbare, bestanden aan te leveren, omdat hiermee (wél) relaties tussen die bestanden getoond kunnen worden.

Omvang van bestanden

De harvester zal alleen bestanden verwerken van maximaal 1 GB. Als er grotere bestanden aangeboden worden dan zullen deze genegeerd worden.

Tijdformaten

Zoals aangegeven in de meegeleverde XSD dienen dateTime velden aangeleverd worden conform type="xs:dateTime". Het is daarbij ook mogelijk zijn om met +/-hh:mm een tijdzone op te geven bij een dateTime.

Zie hierbij voorbeelden van tijdformaten die door de harvester ondersteund worden:

Voorbeeld Toelichting
2023-11-21T09:00:00 lokale tijd in Nederland (CET) (YYYY-MM-DDThh:mm:ss)
2023-04-04T08:00:00Z Zulu tijd = UTC tijd
2023-11-21T09:00:00T+01:00 tijd notatie aangegeven als 1 uur offset t.o.v. UTC

De tijden worden op open.overheid.nl weergegeven als (teruggerekend naar) CET.