Datamanagement

Databeleid van uitgevers

Uitgevers kunnen aan het publiceren van je artikel de voorwaarden verbinden dat je de data waarop je artikel is gepubliceerd, beschikbaar stelt voor raadpleging door anderen. Een aantal tijdschriften hanteert daarvoor een aparte Data Availability of Data Archiving Policy (DAP). Over het algemeen zijn drie scenario’s mogelijk:

  1. Dat je de dataset meelevert met je artikel aan de uitgever. De uitgever zal deze dataset online publiceren
  2. Dat je zelf de dataset in een betrouwbaar data-archief archiveert en je de link van de dataset doorgeeft aan de uitgever
  3. Dat je contactgegevens doorgeeft aan de uitgever van diegene waar de dataset kan worden opgevraagd

Aan welke eisen je precies moet voldoen, vind je doorgaans in de instructies voor auteurs op de website van het tijdschrift of de uitgever.

Data over data

Het is aan te raden om je data te beschrijven en te voorzien van begeleidende metadata (data over data, kenmerken of eigenschappen van data). Je legt zo alle informatie vast die nodig is om de inhoud en context van de data te begrijpen. Zo houd je je data bruikbaar voor jezelf en anderen. Metadata is dus nodig om je data FAIR te maken.  

Metadata kunnen de vorm hebben van een database of een xml-bestand dat bepaalde internationale standaarden volgt (zie hieronder). In je datamanagementplan leg je vast welke standaard je gaat gebruiken en welke andere aanpak je gaat hanteren om je data identificeerbaar, vindbaar en beoordeelbaar te maken. Hieronder meer informatie over deze metadatastandaarden en praktijken.

Metadata kunnen voorkomen in de vorm van een database, een xml-bestand volgens een metadatastandaard of in een andere vorm. Metadatastandaarden variëren per vakgebied. De website van de Digital Curation Centre (DCC) geeft een overzicht van metadatastandaarden per vakgebied. Per standaard vind je er de profielen, tools om de standaard te gebruiken en voorbeeld van data-repositories die deze standaard gebruiken. Als jouw vakgebied nog geen eigen metastandaard gebruikt, gebruik dan de generieke metadatastandaarden. Op de pagina General Research Data op de site van de DCC vind je meer informatie over deze generieke standaarden. En op de website van de Dublin Core Metadata Initiative vind je andere voorbeelden van veelgebruikte generieke metadatastandaarden.

Een goede bestandsnaam maakt het eenvoudiger om je data te identificeren, te lokaliseren en terug te vinden.

  • Gebruik logische en duidelijke bestandnamen
  • Wees consequent in je naamgeving
  • Volg de standaardprocedures en werkstromen in je vakgebied indien deze er zijn
  • Ook je mappenstructuur en de velden in je spreadsheet verdien een solide naamgeving

Handige links:

Om je dataset eenvoudig vindbaar en citeerbaar te maken kun je deze het best een persistent identifier meegeven: een referentienummer of referentienaam. Veel data-repositories werken met persistent identifiers of je kunt ook gebruik maken van een Digital Object Identifier (DOI). Bekijk een video waarin het concept ‘persistent identifiers en datacitatie’ wordt uitgelegd.
Het is daarnaast goed onderzoekspraktijk om datadocumentatie toe te voegen aan je data als een Readme.txt-bestand, dus een gewoon tekstbestand. Dat tekstbestand plaats je dan in dezelfde map waarin de bijbehorende dataset wordt opgeslagen. Het 4TU Centre for Research Data biedt richtlijnen voor het schrijven van zo een README.txt-bestand. Bij deze richtlijnen vind je ook een voorbeeld een goed README-bestand. Het is belangrijk om zo een Readme.txt-bestand voor je dataset te schrijven zodat anderen je data makkelijk kunnen vinden en juist kunnen beoordelen.

Data-uitwisseling en -hergebruik

In het datamanagementplan leg je vast hoe en onder welke voorwaarden je je data gaat delen met anderen of ze beschikbaar gaat stellen voor hergebruik na je onderzoek.

  • Je komt tegemoet aan de eventuele eisen van financiers of uitgevers
  • Het vermijdt verdubbeling van onderzoekwerk
  • Je data kunnen effectief worden hergebruikt
  • Het verhoogt de kans dat je publicaties gebaseerd op deze data worden geciteerd (*)
  • Het verhoogt de zichtbaarheid van jou als onderzoeker
  • Het moedigt hergebruik aan omwille van efficiëntie, transparantie en vertrouwen: het maakt het voor peers mogelijk om specifieke analyses te repliceren of om de claims die over deze data zijn gemaakt in publicaties te valideren en dit kan leiden tot meer vertrouwen in onderzoek in het algemeen
Onderzoek wijst uit dat publicaties waarbij de achterliggende data in welke vorm dan ook (via appendices, URL’s of contactinformatie) beschikbaar zijn gesteld, gemiddeld meer geciteerd worden dan publicaties waarbij de achterliggende data niet beschikbaar zijn gesteld.

Archiveer je data in een repository (1) en voorzie ze van een persistent identifier (2) en een Creative Commons of Open Data licentie (3). (1) is nodig voor toegankelijkheid, (2) is nodig voor (terug)vindbaarheid en citeerbaarheid en (3) is nodig om daadwerkelijk hergebruik mogelijk te maken.

Veel data-repositories werken met persistent identifiers of je kunt ook gebruik maken van een Digital Object Identifier (DOI). Tevens faciliteren data-repositories hergebruik van je data door het aanbieden van data-licenties. En op de volgende websites vind je meer informatie over het faciliteren van hergebruik van data en over het toekennen van licenties aan data:

Je kunt kiezen voor een embargo periode als voorwaarde in gevallen waarbij je de data al archiveert maar je de toegang wilt beperken totdat je bijvoorbeeld meer data hebt verzameld of wanneer je de data eerst zelf wilt analyseren en over je bevindingen wilt publiceren voordat anderen je data kunnen openen en gebruiken.

Je kunt bekendheid geven aan je data en je onderzoek via verschillende wegen:

  • Via een nieuwsbrief
  • Via een community website en sociale media (bijvoorbeeld een relevante LinkedIngroep)
  • Via seminars en conferenties
  • Door je data te beschrijven in een datatijdschrift als GigaScience of Scientific Data, deze tijdschriften publiceren metadata
Bij een samenwerking met andere instellingen of organisaties zal in gezamenlijkheid moeten gekeken worden of en hoe je data-uitwisseling en -hergebruik gaat faciliteren. Deze afspraken moeten worden opgenomen in het (gezamenlijke) datamanagementplan maar daarnaast ook schriftelijk worden vastgelegd in een consortiumovereenkomst.

Data-behoud en -archivering

In het datamanagementplan leg je vast welke data je waar gaat archiveren na je onderzoek.

Deze beslissing kan worden beïnvloed door:

  • Het vakgebied waarin je onderzoek zich typeert
  • Het type data dat is gecreëerd binnen je onderzoek
  • Het gevoeligheidsniveau van de data
  • Of verder werk of publicaties zullen worden gebaseerd op de data

Financiers en uitgevers waarmee je in zee gaat kunnen dus eisen stellen aan data-behoud en -archivering, check hun databeleid.

Je kunt je data archiveren in een door je financier opgericht datacenter, een disciplinaire data-repository of een institutionele data-repository.

De re3data.org website biedt een overzicht van algemene en disciplinaire data-repositories wereldwijd. Je kunt filteren op onderwerp, vakgebied of land. Gebruik de DCC-checklist voor het evalueren van data-repositories. Deze data-repositories faciliteren ook hergebruik van je data door het aanbieden van data-licenties.

Voorlopig kun je op de HHs ook voor de langdurige opslag terugvallen op het opslagmedium wat je ook gebruikt voor de opslag van je data tijdens je onderzoek (HHs-Netwerk Sharepoint). De Haagse Hogeschool doet momenteel een verkenning naar of een of meerdere geschikte eigen of externe systemen om aan te schaffen, in te richten, of onderzoekers naar door te verwezen voor de opslag van onderzoeksdata na afronding van het onderzoek. Zodra daar adviezen of besluiten uit voortkomen, maken we daar op deze pagina melding van.

Het is niet altijd nodig om al je data te archiveren. Wanneer niet?

  • Als er sprake is van een zeer grote dataset, kan het archiveren erg duur zijn. In sommige gevallen kunnen de kosten voor replicatie (indien mogelijk) lager zijn dan de kosten van archivering
  • Wanneer de modellen of de algoritmen waarmee de dataset is geproduceerd uiteindelijk belangrijker zijn dan de dataset zelf

Vragen die je jezelf kan stellen om te bepalen welke data je moet archiveren:

  • Zijn de data uniek? Bij het doen van consumentenonderzoek of het uitvoeren van expertinterviews is het bijvoorbeeld vaak onmogelijk om waarnemingsgegevens te repliceren. Als de studie wordt herhaalt, kunnen nooit dezelfde resultaten worden verkregen
  • Is het gemakkelijk om de data te repliceren? Wanneer dataverzameling veel lab-tijd of dure apparatuur vereist, zijn de kosten van replicatie onevenredig hoog, dan is dit een goede reden om de data te archiveren
  • Is er een formele verplichting om data voor de langere termijn te archiveren? De financier of uitgever heeft dergelijke vereisten gesteld

Voordat je je data gaat archiveren, kun je je data opschonen en zorgen dat ze duurzaam worden. Denk daarbij aan volgende activiteiten:

  • Conversie van je data naar een duurzaam dataformat, kies voor een open format dat niet gebonden is aan een bepaalde softwareleverancier (proprietary software)
  • Reorganiseer je mappen en bestanden
  • Voeg metadata en een persistent identifier toe
  • Pak je dataset in en comprimeer de dataset zodat deze minder opslagruimte in beslag neemt
Bij een samenwerking met andere instellingen of organisaties zal in gezamenlijkheid moeten gekeken worden welke data waar worden gearchiveerd. Deze afspraken moeten worden opgenomen in het (gezamenlijke) datamanagementplan maar daarnaast ook schriftelijk worden vastgelegd in een consortiumovereenkomst.

FAIR data

FAIR data zijn

  • Vindbaar (Findable) en toegankelijk (Accessible) voor anderen die mogelijk geïnteresseerd zijn om de data te gebruiken
  • Uitwisselbaar (Interoperable): interactie met andere data is mogelijk
  • Herbruikbaar (Reusable): goed beschreven, het is duidelijk hoe de data kunnen worden gebruikt en de data voldoen aan de normen die gebruikelijk zijn binnen het domein waarin de data opereren

Hoe FAIR zijn jouw data? Check het aan de hand van een korte vragenlijst. Meer nuttige informatie over FAIR data vind je op deze pagina. Onderstaande uitgebreidere tabel met bijbehorende uitleg kunnen houvast bieden bij het FAIR maken van data.

 

FAIR aspectVereiste metadataVoorbeeld metadata-veld

Vereiste metadata om de data vindbaar (Findable) te maken

 

F1. De metadata of de data zelf krijgen een globaal unieke en persistente identifier toegewezen

Metadata over de persistent identifier van de dataset

 

F2. De data zijn beschreven aan de hand van uitgebreide metadata (gedefinieerd in R1 hieronder)

Metadata over de compleetheid van de data

 

F3. De metadata bevatten duidelijk en expliciet de identifier van de data die worden beschreven

Metadata over gebruikelijke identifiers als PubMed of NCBI Taxonomy

 

F4. De metadata of data zijn geregistreerd of geïndexeerd in een doorzoekbare bron

Metadata over waar de data kan gevonden worden

 

Vereiste metadata om de data toegankelijk (Accessible) te maken

 

 

A1. De metadata of de data zelf zijn terug te vinden op basis van hun identifier met behulp van een gestandaardiseerd communicatieprotocol

Metadata over de representaties van de data (dat wil zeggen het format, bijvoorbeeld RDF - het Resource Description Framework)

 

 A1.1. Dat protocol is open, gratis en universeel implementeerbaar  
 A1.2. Dat protocol zorgt waar nodig voor een een authenticatie- en autorisatieprocedure 
 A2. Metadata zijn toegankelijk, zelfs als de data zelf niet langer beschikbaar zijn Metadata over het persistentiebeleid van de organisatie die de data verstrekt

Vereiste metadata om de data uitwisselbaar (Interoperable) te         maken

 

 

 

I1. De metadata of de data zelf maken gebruik van een formele, toegankelijke, gedeelde en breed toepasbare taal voor kennisrepresentatie

 

 

De metadata zijn beschreven met behulp van een veelgebruikte algemene standaard als Dublin Core (DC) of een veelgebruikte standaard binnen het domein waarin de data opereren

 

 I2. De metadata of de data zelf maken gebruik van een taal die de FAIR-principes volgtMetadata over de taal (ontologie) die in de dataset wordt gebruikt, bijvoorbeeld UniProt Core
 I3. De metadata of de data zelf bevatten gekwalificeerde verwijzingen naar andere metadata of data

De metadata bevatten referenties naar andere gerelateerde bronnen

 

Vereiste metadata om de data herbruikbaar (Reusable) te maken

 

 

R1. De metadata of de data zelf uitgebreid beschreven door middel van een groot aantal nauwkeurige en relevante attributen

Metadata over hoe de dataset te citeren

 

 

 

 R1.1. De metadata of de data zelf zijn vrijgegeven met een duidelijke en toegankelijke gebruikslicentie

Metadata over het auteursrechtenbeleid

 

 

 R1.2. De metadata of de data zelf bevatten gedetailleerde informatie over de herkomst van de data

Metadata over de versie van de dataset

 

 

 

R1.3. De metadata of de data zelf voldoen aan domeinrelevante standaarden

 

 

 

De metadata wordt aangeboden in een format dat gebruikelijk is in een specifiek (onderzoeks)domein, een organisatie of een specifieke dataset, bijvoorbeeld de Data Documentation Initiative voor data binnen de sociale wetenschappen