Datamanagement (opslag en organisatie)

Om onderzoeksdata veilig, vindbaar en leesbaar te houden moet je als onderzoeker diverse activiteiten uitvoeren. Enerzijds activiteiten behorende bij het opslaan van de data en anderzijds activiteiten behorende bij het organiseren van de data.

Data opslag en toegang

Bij het opslaan van je data moet je letten op zaken als back-uppen, toegang tot en transfer van data en het leesbaar houden van data. Alle onderzoeksdata kunnen tijdens het onderzoek veilig worden opgeslagen met behulp van de tool Research Drive. Door gebruik te maken van Research Drive zijn back-up en toegang van de data al in de basis goed geregeld.

Alle onderzoeksdata kunnen tijdens het onderzoek worden opgeslagen met behulp van de tool Research Drive. Per onderzoek wordt er een projectmap aangemaakt waarin je een eigen mappenstructuur kunt aanmaken of gebruik kunt maken van een geadviseerde mappenstructuur. Back-up is hierbij goed geregeld via onze leverancier SURFSara. Tevens hebben we met SURFSara ook een support overeenkomst en een verwerkersovereenkomst voor het veilig op kunnen slaan van persoonsgegevens.

Een projectmap in Research Drive is aan te vragen via de iFrontoffice, tegel ‘Onderwijsondersteuning’ en dan het formulier ‘Research Drive’. Ook kunnen eventuele vragen over Research Drive via dit formulier gesteld worden. Na aanmelding volgt er een startgesprek met de datasteward.

Via het formulier geef je de projectnaam op, zodat deze door de functioneel beheerder kan worden aangemaakt. Je ontvangt dan een uitnodiging om je accountgegevens toe te voegen aan Research Drive. Zodra je dit geaccepteerd hebt kan de functioneel beheerder je eigenaar maken van de projectmap en de eigenaar kan daarna zelf (onderzoeks)medewerkers uitnodigen om toegang te krijgen tot Research Drive. Deze personen kunnen (na acceptatie van de uitnodiging) rechten krijgen voor de projectmap of alleen sommige mappen uit de hoofdmap. Dit bepaal je als eigenaar zelf.

In de map ‘Testproject’ in Research Drive staan enkele handige documenten zoals de Quick Guide Research Drive en de leidraad documentatie en mappenstructuur.

De snelkoppeling naar de tool is via deze link te vinden, maar is uiteraard alleen toegankelijk als je je onderzoek hebt aangemeld bij de functioneel beheerder.

Bij het organiseren van de toegang tot je data tijdens het uitvoeren van je onderzoek moet je rekening houden met de aard van de data. Persoonlijke of gevoelige data hebben een hoger beveiligingsniveau nodig dan geanonimiseerd of niet-vertrouwelijke data. Bij het gebruik van data van een externe partij moet je voldoen aan de specifieke beperkingen (bijvoorbeeld beschermd door intellectuele eigendommen) die deze data kunnen hebben. Research Drive biedt de mogelijkheid om instellingen en autorisaties in te stellen op een manier die voldoet aan deze voorwaarden en aan de geldende wetgeving. Ga periodiek na of er geen ongeautoriseerde toegang plaatsvindt en check of nog klopt wie tot welke folders en bestanden toegang heeft.

Vragen behorende bij data toegang:

  • Wie heeft toegang tot de data?
  • Wie is de eigenaar van de data?
  • Hoe ga je om met eventuele gebruiksvoorwaarden van de data?
  • Wie mag de data bewerken?
  • Wie controleert de data?
  • Hoe zorg je ervoor dat de data toegankelijk blijven wanneer jij of andere mensen het onderzoek verlaten?

Hou rekening dat je op een veilige manier toegang hebt tot je data via Research Drive vanaf al de locaties waar je werkt. Een degelijke firewall en betrouwbare antivirussoftware zijn een must. Vermijd het gebruik van onveilige internetverbindingen. Vergrendel altijd je device als je even wegloopt en laat je device nooit voor lange tijd onbeheerd/onbeveiligd achter.

Ga verstandig om met wachtwoorden. En pas encryptie toe als extra beveiligingsmaatregel. Het opslagsysteem van Research Drive maakt gebruik van encryptie. Als het nodig is om je data te gebruiken buiten Research Drive, pas dan zelf encryptie toe met software als VeraCrypt of Cryptomator. Je bestanden via e-mail verzenden is onveilig. Het is beter om de veilige tool SURFfilesender in te zetten die ook gebruikmaakt van encryptie. Je logt in met je HHs account. 

Bij een samenwerking met andere instellingen of organisaties zal in gezamenlijkheid moeten gekeken worden bij welke instellingen welke data in welk formaat wordt opgeslagen en wie toegang heeft tot welke data. Deze afspraken moeten worden opgenomen in het (gezamenlijke) datamanagementplan maar daarnaast ook schriftelijk worden vastgelegd in een consortiumovereenkomst. Ga periodiek na of alle partijen de procedures blijven naleven die zijn afgesproken.

Organiseren van data

De tijd die je investeert in het nadenken over het organiseren van onderzoeksdata en de bijbehorende data- en projectdocumentatie, verdient zich op termijn dubbel en dwars terug. Het maakt de data namelijk makkelijker vindbaar en begrijpelijk. Voor jezelf, voor de onderzoekers waarmee je samenwerkt en later voor anderen die je data gaan hergebruiken. Het is dan ook zaak om de data op een consequente manier op te slaan en te voorzien van accurate documentatie en metadata. Zorg voor een overzichtelijk structuur van je folders en bestanden en maak gebruik van informatieve en veelzeggende bestandsnamen.

Als onderzoeker bepaal je zelf de strategie die je wilt volgen bij het geven van bestandsnamen. Er zijn verschillende benaderingen mogelijk, maar het is wel belangrijk om er goed bij stil te staan. Een bestandsnaam is namelijk het belangrijkste element waarmee je het bestand kunt identificeren.

De volgende elementen kun je als basis van bestandsnamen gebruiken: projectnaam, projectnummer, naam onderzoeksteam, meettype, onderwerp, aanmaakdatum, versienummer. Deze lijst kan aangevuld worden met andere variabelen.

Er zijn echter wel punten en regels die je bij je keuze in gedachten moet houden:

  • Houd rekening met de mogelijkheden en belemmeringen van het (opslag)systeem waar je mee werkt. Soms het een systeem bijvoorbeeld de lengte van de bestandsnaam bepalen.
  • Kies voor één naamgevingsconventie en pas die consequent toe door dezelfde informatie telkens in dezelfde volgorde op te nemen in de bestandsnamen.
  • Maak bestandsnamen specifiek, gedetailleerd én uniek. Zo ontstaat er geen conflict wanneer de bestanden naar een andere map worden verplaatst en voorkom je dat je, zonder je het te realiseren, in het verkeerde bestand aan het werken bent.
  • Houd je aan de volgende vaste regels: hetzelfde aantal cijfers (001…100…), vast notatie voor datums (JJJJ-MM-DD, JJJJ-MM of JJJJ-JJJJ), onderstrepingstekens en koppeltekens in plaats van spaties, standaardtermen (laat je inspireren op bartoc.org), geen speciale tekens en laat extensies van bestanden staan.
  • Houd bestandsnamen zo kort en relevant mogelijk. Over het algemeen is ongeveer 25 tekens lang genoeg om voldoende beschrijvende informatie vast te leggen. Indien nodig kun je bestandsnaamelementen coderen.
  • Bestandsnamen kunnen automatisch gegenereerd worden door software die je gebruikt (bijvoorbeeld bestandsnamen die toegekend worden aan foto’s door je fotocamera). Verander deze bestandsnamen volgens de door jou gekozen naamgevingsconventie. Voor het gelijktijdig hernoemen van meerdere bestanden is er software beschikbaar zoals Ant Renamer en NameChanger.

Samenvattend moeten bestandsnamen dus nuttige aanwijzingen bevatten met betrekking tot de inhoud, de status en de versie van het bestand. De bestandsnaam helpt bestanden van elkaar te onderscheiden en het biedt hulp bij het classificeren en sorteren van bestanden.

Documenteer je hele strategie met betrekking tot het geven van bestandsnamen. Deze documentatie helpt om consequent te blijven en om nog lang na het afronden van je onderzoek de strategie te blijven begrijpen. Het is zeker handig wanneer je met meerdere onderzoekers aan dezelfde data werkt.

Bovenstaande richtlijnen voor bestandsnamen zijn natuurlijk ook van toepassing op de foldernamen. Om in je folderstructuur ook overzicht te houden, is de beste aanpak om de verschillende fases van je onderzoek terug te laten komen. De namen van je folders weerspiegelen deze fases zoals voorbereiding (administratie en documentatie van onderzoeksproject, inclusief je datamangementplan), ruwe data, gemanipuleerde data, verslagen van analyses en finale producten zoals publicaties. Het is tevens de start van je folderstructuur.

Door de onderzoeksfases terug te laten komen in je folderstructuur, weerspiegelt de structuur ook de verschillende versies van je onderzoeksdata. Bewaar altijd het ruwe-databestand en zorg ervoor dat hier geen wijzigingen meer in aangebracht kunnen worden (bijvoorbeeld read-only opslaan of toegangsrechten instellen). Daarnaast is het ook verstandig om een aparte folder in te zetten voor de meest gevorderde versie van je data. Op deze manier ben je ervan verzekerd dat je altijd met de juiste versie aan de slag gaat.

De hiërarchie van folders moet simpel en overzichtelijk blijven. Het is daarom aan te raden niet te veel niveaus in de folderstructuur aan te brengen.

Documenteer de keuzes die je maakt wat betreft foldernamen en folderstructuur inclusief alle veranderingen in de folderstructuur en de bijbehorende argumentatie.

Het documenteren van zowel je onderzoeksproces (in de vorm van protocollen, methodologiebeschrijvingen, etc) als je data (in de vorm van inventarisaties,  beschrijvingen van relaties en manipulaties, etc) is belangrijk om fouten te vermijden en om data correct te interpreteren tijdens je onderzoek en nadat je onderzoek is afgerond (validatie). REASME.txt is een bestand waarin een overzicht wordt gegevens van de dataset. Hierin beschrijf je de inhoud van elk bestand van je dataset. De richtlijnen voor het schrijven van zo een README.txt-bestand zijn vastgesteld door het 4TU Centre for Research Data.

Wees consistent in de bestandnaamgeving van verschillende versies, bijvoorbeeld door het toevoegen van de datum (JJJJ-MM-DD) in het bestand of het versienummer. Leg daarnaast de verschillen tussen versies vast. Dit kan je doen met behulp van een simpele tabel die de volgende kolommen bevat: nummer van de versie, een beknopte beschrijving van wat er met de data is gedaan, wie het heeft gedaan en de datum waarop het is gedaan. In plaats van handmatig versiebeheer kan je ook gebruikmaken van versiebeheersoftware zoals Subversion.

Ondersteuning door een Data Steward

Onderzoekers kunnen ondersteuning krijgen bij research data management. De research data steward(s) van de HHs zijn te benaderen via researchsupport@hhs.nl

 

Research Drive: veilig opslaan van je onderzoeksdata