Gérer les données de recherche de mon projet : les bonnes questions qu'il faut se poser !

Ce document synthétique a pour objectif d’aider les porteurs de projet à définir une stratégie de gestion efficace des données informatiques pour leurs projets de recherche. Regroupées en 4 parties; nature des données, volumétrie, accessibilité et sécurité, ces 25 questions simples, doivent être abordées dès la phase de rédaction du projet.

Grâce aux réponses fournies, l’équipe de la plateforme SINBIOS pourra accompagner le porteur de projet dans l’identification précise de ses besoins humains et matériels. Cet accompagnement lui permettra d’élaborer un budget cohérent et adapté à la gestion des données de son projet.

SINBIOS est particulièrement qualifié pour intervenir sur un Work Package dédié à la gestion des données, en élaborant le Plan de Gestion des Données (PGD) du projet tout en respectant les principes FAIR et les exigences de la science ouverte.

La nature des données

La volumétrie des données

  • Pouvez-vous estimer le nombre de fichiers qui seront générés par chaque expérience du projet ?
  • S'agit-il de données interprétées (peu volumineuses, quelques mégaoctets) ou de données brutes (plutôt volumineuses, plusieurs gigaoctets)?
  • Pouvez-vous estimer, même approximativement, la taille de chacun de ces fichiers (idéalement en fonction de leur type) ?
  • Est-ce que des données seront générées dès le démarrage du projet ?
  • Est-ce que le volume de données générées sera régulier et constant tout au long du projet ?
  • Le cas échéant, pouvez estimer quand les pics de génération de données interviendront dans le calendrier du projet ?

L'accessibillité des données

  • Combien de collaborateurs devront avoir accès aux données pendant la durée du projet ?
  • Dans quelle région géographique se situent ces collaborateurs (France, Europe...)?
  • Quelle méthode d’accès aux données envisagez-vous pour vos collaborateurs ? (navigateur web, logiciel ftp, sftp, partage réseau type partage Windows (CIFS) ou Linux (NFS))
  • Les données doivent-elle être accessibles 24h/24h ?
  • De quel milieu professionnel sont issus ces collaborateurs (académique, entreprise privée,...) ?
  • Pouvez-vous identifier quels seront les acteurs du projet qui produiront les données ?
  • Les données doivent-elles être conservées lorsque le projet sera terminé ?
  • Si oui :
    • Quelle serait la durée de conservation ?
    • Est-ce que cela concernerait toutes les données générées pendant le projet, ou seulement une partie ?
    • Êtes-vous en mesure de distinguer ces données et d’estimer la volumétrie qui serait à conserver à l’issue du projet ?

La sécurité des données

  • Est-il nécessaire d’avoir une sauvegarde de ces données ?
  • Si oui, quel niveau de sauvegarde souhaiteriez-vous ?
    • une sauvegarde par jour ?
    • plusieurs sauvegardes par jour ?
    • un mécanisme de réplication sur un site distant ?
    • une troisième copie des données sur un second site distant ?
  • Quelle méthode d'authentification envisagez vous pour accéder aux données ? Juste avec un login/mot de passe ? ou un système plus robuste ?
  • Les données peuvent-elles être accessibles depuis une connexion internet personnelle ? Ou uniquement depuis un réseau informatique professionnel ou via un VPN ?
  • Souhaiteriez-vous définir des permissions d’accès particulières aux données (lecture, écriture, suppression) à des personnes ou des groupes de personnes ?
  • Les accès aux données doivent ils être audités ? C’est à dire être en mesure de savoir qui à fait quoi, quand, et sur quelle donnée