Technische implementatie
Dit is versie 0.9.4 van de Handleiding voor de Woo-harvester. Aan dit document kunnen geen rechten worden ontleend.
Harvester user-agent en ip-adres
Onze WooHarvester gebruikt de volgende settings:
- naam user agent (case-sensitive):
WooHarvester
- ip-adres (productie):
147.181.37.26
Schema
Voor het aansluiten op sitemaps zonder aanbevelingen kan het bestuursorgaan gebruik
maken van het basisschema voor sitemaps: http://www.sitemaps.org/schemas/sitemap/0.9
Voor het aansluiten inclusief aanbevelingen voor het doorgeven van metadata is een XML-schema met de benodigde uitbreidingen beschikbaar.
Robots.txt
De Woo-harvester neemt de in de verwijsindex geregistreerde URL's als basis.
In de root van dat (sub)domein moet een bestand met naam robots.txt
opgenomen zijn met daarin verwijzingen naar sitemap-index bestanden.
Zie pagina Sitemapindex en sitemaps voor een nadere toelichting hierop.
Als er een Disallow
is opgenomen in het robots.txt bestand dan zullen wij de opgenomen sitemap(index)bestanden
niet harvesten.
Aandachtspunten bij de technische implementatie
Deze paragraaf geeft algemene technische aandachtspunten bij het invullen van de sitemaps.
Zie pagina Aanbevelingen voor metadata voor nadere uitleg van de metadata velden die per document in de sitemaps meegegeven kunnen worden.
Aanbevolen wordt om invulling van de sitemaps te valideren met de beschikbare XSD (zie tips voor de werkwijze daarvoor op deze pagina).
Doellocatie van de <loc>
verwijzing in de sitemaps
De <loc>
-verwijzing wordt door de harvester geïnterpreteerd als een unieke identificatie van
een document.
In de sitemap moet de <loc>
direct verwijzen naar het te harvesten document. Verwijzing naar een html-pagina
met extra informatie-, een download- of een verzamelpagina van documenten leidt tot
niet-werkende links op open.overheid.nl
.
Cross-domain
Het is mogelijk om documenten vanuit verschillende (sub)domeinen te harvesten. Elk
domein waarnaar in de <loc>
verwezen wordt moet onderdeel uitmaken van een geregistreerde URL in het ROO. Dit
geldt ook de voor (domeinen van de) sitemapindexbestanden die in robots.txt
zijn opgenomen. Zie voor nadere informatie sitemap.org.
Meerdere publishers op hetzelfde domein
Zoals vermeld in pagina Aanbevelingen voor metadata: met TOOI-veld <publisher>
kan worden aangegeven wie de publisher van een bepaald document is. Dit is de aanbevolen
methode om, vanuit één domein, documenten van meerdere bestuursorganen te (laten)
publiceren.
Protocol-indicatie in de referentie naar document en resources
In de <loc>
tag verwijzing moet gebruik gemaakt worden van een https-URL. Ook alle andere verwijzingen
naar resources in de sitemap dienen gebruik te maken van het https-protocol.
Certificaten
In de harvester wordt geen beheerde lijst van certificaten per bestuursorgaan bijgehouden. Om eventuele problemen met certificaten te voorkomen wordt aanbevolen om een SSL-checker te gebruiken op de URL van uw documentverzameling / webserver; eventuele issues die daar getoond worden moeten opgelost worden om verwerkingsproblemen met de harvester te voorkomen.
Bestandsformaten
De Woo-harvester ondersteunt alleen bestandsformaten die voorkomen op de laatste versie
van de lijst PLOOI filetypes aansluitvoorwaarden. Het bestandsformaat kan in de metadata van het document worden meegegeven, in TOOI
tag <format>
. Als dit veld afwezig is dan zal de harvester proberen het bestandstype af te leiden
uit de mimetype van het bestand en/of via de bestandsextensie van de URL van het document
uit de <url><loc>
. Als dit niet lukt zal het betreffende document niet geharvested worden.
Eén van de ondersteunde bestandsformaten is .zip
. Zip-bestanden worden niet automatisch uitgepakt maar zullen zonder verdere verwerking
weergegeven worden op het portaal, als downloadbaar bestand.
Zoals hierboven al aangegeven ondersteunen we geen links in html-bestanden. Het aanleveren van html-bestanden wordt daarom afgeraden. Het is beter om afzonderlijke, downloadbare, bestanden aan te leveren, omdat hiermee (wél) relaties tussen die bestanden getoond kunnen worden.
Omvang van bestanden
De harvester zal alleen bestanden verwerken van maximaal 1 GB. Als er grotere bestanden aangeboden worden dan zullen deze genegeerd worden.
Tijdformaten
Zoals aangegeven in de meegeleverde XSD dienen dateTime velden aangeleverd worden
conform type="xs:dateTime"
. Het is daarbij ook mogelijk zijn om met +/-hh:mm
een tijdzone op te geven bij een dateTime.
Zie hierbij voorbeelden van tijdformaten die door de harvester ondersteund worden:
Voorbeeld | Toelichting |
---|---|
2023-11-21T09:00:00 | lokale tijd in Nederland (CET) (YYYY-MM-DDThh:mm:ss) |
2023-04-04T08:00:00Z | Zulu tijd = UTC tijd |
2023-11-21T09:00:00T+01:00 | tijd notatie aangegeven als 1 uur offset t.o.v. UTC |
De tijden worden op open.overheid.nl
weergegeven als (teruggerekend naar) CET.