home-icon
  • checkmark Bonnes pratiques académiques
    • checkmark Conception et réalisation
    • checkmark Conception et méthodologie
    • checkmark Failles possibles dans la conception d’une étude
    • checkmark Préenregistrement et rapports enregistrés
    • checkmark Reproductibilité et réplicabilité de la recherche
    • checkmark Les statistiques en recherche
    • checkmark Financement de la recherche
    • checkmark Gestion des données de Recherche
    • checkmark Principes FAIR pour les données de recherche
    • checkmark Plan de gestion de données
    • checkmark Diffusion des résultats
    • checkmark Présenter ses données
    • checkmark Traitement d’images
    • checkmark Autorat
    • checkmark Affiliation de l’auteur
    • checkmark Citation et référencement
    • checkmark Accès ouvert (Open access) aux publications
    • checkmark La qualité d’une revue
    • checkmark L’évaluation par les pairs
    • checkmark Preprints
    • checkmark Nouveautés des travaux
    • checkmark La valeur des résultats négatifs
  • checkmark Déclaration de conflit d’intérêts
  • checkmark Communication scientifique
  • checkmark Evaluation de la recherche et des chercheurs
  • checkmark Références pour le module 3 – Bonnes pratiques académiques

Principes FAIR pour les données de recherche

jumping-icon base

Principes FAIR pour les données de recherche

L’un des principaux objectifs d’une bonne gestion des données de recherche (RDM) est de garantir la préservation à long terme de données FAIR une fois les résultats publiés et/ou le projet terminé. Cette conservation permet 1) de reproduire les résultats d’une étude ultérieurement ; 2) de réutiliser les données dans de nouvelles recherches.

mindthegap

Le principe directeur doit être le suivant : des données aussi ouvertes que possible, mais aussi fermées que nécessaire.

mindthegap

Cependant, la seule conservation à long terme ne suffit pas à transformer les données en un produit de recherche exploitable et citable, équivalent à une publication scientifique. Des données mal ou peu documentées, stockées des années sur un serveur privé de département, risquent de sombrer dans l’oubli, d’autant plus que les évolutions technologiques peuvent rapidement les rendre illisibles, tant pour les machines que pour les chercheurs.

mindthegap

La documentation détaillée des processus de collecte (intégrée à votre plan de gestion des données) est donc essentielle afin que toute sélection de données soit claire, lisible et partageable. Par ailleurs, le préenregistrement de la méthodologie constitue un garde-fou supplémentaire pour prévenir des atteintes à l’intégrité scientifique.

Dessin humoristique par Patrick Hochstenbach sous licence Creative Commons CC BY-SA 4.0.

Les principes FAIR

C’est là qu’interviennent les principes directeurs FAIR pour la gestion et l’intendance des données scientifiques entrent en jeu. Les principes FAIR ont été initialement conçus pour les données de recherche (Wilkinson et al., 2016), mais ils s’appliquent également à des types plus spécifiques de résultats de recherche tels que les logiciels (Lamprecht et al., 2019). Les données peuvent être transformées en objets FAIR, ce qui les rend « exploitables » par la communauté scientifique au sens large sur le long terme. FAIR signifie Faciles à trouver (Findable), Accessibles (Accessible), Interopérables (Interoperable) et Réutilisables (Re-usable).

  1. Faciles à (re)trouver (Findable)
    Idéalement, les données et la documentation/métadonnées qui les accompagnent doivent être trouvables à la fois par les humains et par les systèmes informatiques. Concrètement, cette trouvabilité est généralement assurée par des « métadonnées de découverte » disponibles via un moteur de recherche de données tel que DataCite. Si vous recherchez les données dans le moteur de recherche, les métadonnées de découverte associées, comprenant le ou les noms des créateurs de données, le sujet des données, etc., apparaissent dans les résultats de recherche. En général, les métadonnées de découverte incluent un identifiant pérenne (par ex. DOI, handle, etc.) qui vous dirige vers la page de destination où les données (non sensibles) sont disponibles en téléchargement. Veuillez noter que la facilité avec laquelle les données peuvent être retrouvées se décline sous différentes formes. Des données publiées sur un site web personnel ou sur le site web d’un projet sont, dans une certaine mesure, trouvables, mais pas de manière réellement significative ni structurée.
  2. Accessible
    Les conditions d’accès aux données sont clairement définies et soutenues par la licence appropriée (par ex. une licence Creative Commons pour les données ouvertes). Les données sont publiées en libre accès lorsque cela est possible, mais un accès restreint/fermé est appliqué dans le cas de données sensibles (par ex. des données personnelles). Bien que les données sensibles ne soient pas rendues publiques en libre accès, elles peuvent néanmoins souvent être réutilisées par d’autres chercheurs, mais au travers d’une procédure plus complexe qui garantit les droits des personnes concernées et assure la sécurité des données. Notez que les métadonnées de découverte renvoyant à ces données sensibles peuvent rester accessibles publiquement, même si les données elles-mêmes ne le sont pas.
  3. Interopérable
    Des données interopérables sont des données qui peuvent être combinées avec d’autres ensembles de données, aussi bien par des humains que par des systèmes informatiques, et qui ne présentent pas d’obstacles juridiques inutiles (par ex. une licence en libre accès comportant des restrictions excessivement complexes). De plus, les données peuvent facilement interagir avec des flux d’analyse automatisés ou d’autres applications. Il est également important que la documentation/les métadonnées accompagnant les données respectent autant que possible les normes spécifiques à chaque discipline, notamment en utilisant des vocabulaires contrôlés, et puissent être encodées dans un format standardisé et structuré afin d’être lisibles par machine. Parmi les exemples de standards génériques de métadonnées, on peut citer le Dublin Core et le DataCite Metadata Schema.
  4. Réutilisable 
    Les trois piliers « facile à (re)trouver », « accessible » et « interopérable » constituent tous des conditions préalables nécessaires pour rendre les données finalement réutilisables et interprétables par d’autres chercheurs. La documentation et les métadonnées accompagnant les données sont particulièrement importantes, par exemple un livre d’encodage (codebook) précisant la signification des différentes variables, ou encore une description des méthodes utilisées pour la collecte des données. Sans documentation adéquate, les données sont généralement difficiles à interpréter, ce qui entrave évidemment leur réutilisation. Notez que, si les données sont sensibles, leur réutilisation n’est pas impossible, mais doit respecter des conditions strictes prévues dans un data use agreement (accord d’utilisation des données).

Dépôt de données

Il est recommandé que les chercheurs développent leurs compétences en matière de mise en conformité avec les principes FAIR (Faciles à trouver, Accessibles, Interopérables et Réutilisables), afin de rendre les données qu’ils collectent ou génèrent aussi conformes que possible à ces principes. Cependant, ils ne sont pas seuls dans cette démarche. Outre les services de soutien à la gestion des données de recherche offerts par les institutions, un rôle central revient également au dépôt de confiance, où les données de recherche sont finalement archivées. Un tel dépôt peut, par exemple, être bien relié à l’écosystème plus large des données, renforçant ainsi la facilité de recherche des données archivées, et offrir l’infrastructure nécessaire à la mise en œuvre de standards de métadonnées, améliorant de ce fait leur interopérabilité.

mindthegap
  • Re3data est un registre mondial recensant les dépôts de données de recherche institutionnels, disciplinaires et interdisciplinaires.
mindthegap

When to think about this?

Comme déjà mentionné : « La gestion des données de recherche (RDM) inclut toutes les étapes avant, pendant et après le projet », ce qui signifie que vous devez gérer correctement vos données de recherche tout au long de leur cycle de vie afin de garantir la qualité et l’intégrité de vos travaux. Un plan de gestion des données (Data Management Plan – DMP) constitue le meilleur outil pour vous y aider.