Plan de gestion de données

Rédiger un plan de gestion des données (Data Management Plan – DMP) au début de votre recherche peut vous aider à garantir un niveau de transparence et d’intégrité dans vos travaux. Dans un DMP, vous décrivez les données que vous prévoyez de collecter, de générer et d’utiliser pour votre recherche, qu’il s’agisse de données que vous créez vous-même ou de données existantes produites par d’autres. Vous y indiquez, de manière structurée, comment vous gérerez ces données pendant et après votre recherche. Vous y expliquez notamment :

comment les données ont été créées et ce qu’elles signifient
les modalités de stockage sécurisé afin qu’elles ne puissent pas disparaître ou être altérées
les mesures de sécurité des données pour que seules les personnes autorisées puissent y accéder
la manière de publier les données comme preuves à l’appui de vos articles (sauf en cas de restrictions), afin que vos résultats puissent être vérifiés et reproduits
les responsabilités individuelles et institutionnelles liées à la conservation des données
les garanties mises en place pour des raisons éthiques et de protection de la vie privée, si la recherche implique des participants humains

Une bonne gestion des données ne s’arrête pas à la planification. Il est essentiel que vos données de recherche soient ensuite gérées conformément à ce plan. Vous pouvez revoir et actualiser le DMP en fonction de l’avancement de votre recherche (il s’agit d’un document vivant). À la fin de votre projet, votre DMP constituera une trace durable des données produites par vos recherches.

Les points clés à examiner lorsque vous commencez à rédiger un plan de gestion de données (DMP) sont les suivants :

Connaître les politiques et services de votre institution, tels que la stratégie de stockage et de sauvegarde, la politique en matière de droits de propriété intellectuelle, la politique de gestion des données et toute infrastructure de partage de données, comme un dépôt institutionnel
Déterminer la propriété de vos données
Identifier vos obligations légales, éthiques et autres relatives aux données de recherche, à l’égard des participants, de vos collègues, des bailleurs de fonds et de votre institution.

Voici quelques exemples où de bons plans de gestion des données (DMP) peuvent contribuer à assurer l’intégrité de la recherche :

Documenter en détail la manière dont vos données ont été créées et traitées fournit des preuves claires, par exemple :
- un carnet de laboratoire décrit la mise en place expérimentale et tous les paramètres qui définissent vos données, montre les processus utilisés pour les collecter et donne une vue d’ensemble de l’ensemble des données recueillies ;
- un calendrier d’entretiens et une liste de questions décrivent la collecte d’informations par le biais d’entretiens, accompagnés d’un livre d’encodage (codebook) référencé qui explicite votre interprétation du contenu des entretiens lors de l’analyse ;
- des lignes de commentaires dans un code informatique décrivent, étape par étape, la logique de ce que fait votre programme.
Le contrat de licence et les conditions d’utilisation des données tierces expliquent comment vous pouvez ou non utiliser ces données dans votre recherche. Par exemple, il se peut que vous soyez autorisé à utiliser les données pour vos analyses, mais pas à les copier ni à les publier, et vous devez citer les données utilisées (comme vous le feriez pour une publication). Il est dès lors important de vérifier la propriété de ces données.
Dans la recherche impliquant des participants humains, documenter les procédures de consentement éclairé utilisées dans votre étude, ainsi que les données personnelles que vous pourriez collecter, aide à planifier le niveau de sécurité requis pour le stockage et le traitement de ces données, et à déterminer comment les anonymiser afin de respecter la vie privée des personnes.
Publier vos données de recherche selon les principes FAIR apporte de la transparence sur la manière dont vous êtes parvenu à vos résultats scientifiques à partir de ces données.
Si d’autres chercheurs souhaitent reproduire vos résultats, ils doivent pouvoir accéder aux données et à toute documentation expliquant clairement comment elles ont été générées et comment les interpréter. Les données peuvent, par exemple, être mises à disposition en accès ouvert dans un dépôt de données, assorties d’une licence d’utilisation claire.

Collaborations locales, interdisciplinaires et internationales

Dans le cadre de recherches collaboratives, il est important de décrire les pratiques de gestion des données prévues dans chaque organisation partenaire, et de désigner une personne responsable de la gestion des données sur chaque site. Dans les collaborations internationales, il peut exister des différences en matière de cadre éthique et juridique de la recherche, ou dans les attentes des institutions ou des bailleurs de fonds concernant la gestion des données. L’élaboration d’un DMP permet de s’assurer que tous ces aspects sont pris en compte avant le début de la collecte des données.

Page précédente Page suivante

Principes FAIR pour les données de recherche

L’un des principaux objectifs d’une bonne gestion des données de recherche (RDM) est de garantir la préservation à long terme de données FAIR une fois les résultats publiés et/ou le projet terminé. Cette conservation permet 1) de reproduire les résultats d’une étude ultérieurement ; 2) de réutiliser les données dans de nouvelles recherches.

Le principe directeur doit être le suivant : des données aussi ouvertes que possible, mais aussi fermées que nécessaire.

Cependant, la seule conservation à long terme ne suffit pas à transformer les données en un produit de recherche exploitable et citable, équivalent à une publication scientifique. Des données mal ou peu documentées, stockées des années sur un serveur privé de département, risquent de sombrer dans l’oubli, d’autant plus que les évolutions technologiques peuvent rapidement les rendre illisibles, tant pour les machines que pour les chercheurs.

La documentation détaillée des processus de collecte (intégrée à votre plan de gestion des données) est donc essentielle afin que toute sélection de données soit claire, lisible et partageable. Par ailleurs, le préenregistrement de la méthodologie constitue un garde-fou supplémentaire pour prévenir des atteintes à l’intégrité scientifique.

Dessin humoristique par Patrick Hochstenbach sous licence Creative Commons CC BY-SA 4.0.

Les principes FAIR

C’est là qu’interviennent les principes directeurs FAIR pour la gestion et l’intendance des données scientifiques entrent en jeu. Les principes FAIR ont été initialement conçus pour les données de recherche (Wilkinson et al., 2016), mais ils s’appliquent également à des types plus spécifiques de résultats de recherche tels que les logiciels (Lamprecht et al., 2019). Les données peuvent être transformées en objets FAIR, ce qui les rend « exploitables » par la communauté scientifique au sens large sur le long terme. FAIR signifie Faciles à trouver (Findable), Accessibles (Accessible), Interopérables (Interoperable) et Réutilisables (Re-usable).

Faciles à (re)trouver (Findable)
Idéalement, les données et la documentation/métadonnées qui les accompagnent doivent être trouvables à la fois par les humains et par les systèmes informatiques. Concrètement, cette trouvabilité est généralement assurée par des « métadonnées de découverte » disponibles via un moteur de recherche de données tel que DataCite. Si vous recherchez les données dans le moteur de recherche, les métadonnées de découverte associées, comprenant le ou les noms des créateurs de données, le sujet des données, etc., apparaissent dans les résultats de recherche. En général, les métadonnées de découverte incluent un identifiant pérenne (par ex. DOI, handle, etc.) qui vous dirige vers la page de destination où les données (non sensibles) sont disponibles en téléchargement. Veuillez noter que la facilité avec laquelle les données peuvent être retrouvées se décline sous différentes formes. Des données publiées sur un site web personnel ou sur le site web d’un projet sont, dans une certaine mesure, trouvables, mais pas de manière réellement significative ni structurée.
Accessible
Les conditions d’accès aux données sont clairement définies et soutenues par la licence appropriée (par ex. une licence Creative Commons pour les données ouvertes). Les données sont publiées en libre accès lorsque cela est possible, mais un accès restreint/fermé est appliqué dans le cas de données sensibles (par ex. des données personnelles). Bien que les données sensibles ne soient pas rendues publiques en libre accès, elles peuvent néanmoins souvent être réutilisées par d’autres chercheurs, mais au travers d’une procédure plus complexe qui garantit les droits des personnes concernées et assure la sécurité des données. Notez que les métadonnées de découverte renvoyant à ces données sensibles peuvent rester accessibles publiquement, même si les données elles-mêmes ne le sont pas.
Interopérable
Des données interopérables sont des données qui peuvent être combinées avec d’autres ensembles de données, aussi bien par des humains que par des systèmes informatiques, et qui ne présentent pas d’obstacles juridiques inutiles (par ex. une licence en libre accès comportant des restrictions excessivement complexes). De plus, les données peuvent facilement interagir avec des flux d’analyse automatisés ou d’autres applications. Il est également important que la documentation/les métadonnées accompagnant les données respectent autant que possible les normes spécifiques à chaque discipline, notamment en utilisant des vocabulaires contrôlés, et puissent être encodées dans un format standardisé et structuré afin d’être lisibles par machine. Parmi les exemples de standards génériques de métadonnées, on peut citer le Dublin Core et le DataCite Metadata Schema.
Réutilisable
Les trois piliers « facile à (re)trouver », « accessible » et « interopérable » constituent tous des conditions préalables nécessaires pour rendre les données finalement réutilisables et interprétables par d’autres chercheurs. La documentation et les métadonnées accompagnant les données sont particulièrement importantes, par exemple un livre d’encodage (codebook) précisant la signification des différentes variables, ou encore une description des méthodes utilisées pour la collecte des données. Sans documentation adéquate, les données sont généralement difficiles à interpréter, ce qui entrave évidemment leur réutilisation. Notez que, si les données sont sensibles, leur réutilisation n’est pas impossible, mais doit respecter des conditions strictes prévues dans un data use agreement (accord d’utilisation des données).

Dépôt de données

Il est recommandé que les chercheurs développent leurs compétences en matière de mise en conformité avec les principes FAIR (Faciles à trouver, Accessibles, Interopérables et Réutilisables), afin de rendre les données qu’ils collectent ou génèrent aussi conformes que possible à ces principes. Cependant, ils ne sont pas seuls dans cette démarche. Outre les services de soutien à la gestion des données de recherche offerts par les institutions, un rôle central revient également au dépôt de confiance, où les données de recherche sont finalement archivées. Un tel dépôt peut, par exemple, être bien relié à l’écosystème plus large des données, renforçant ainsi la facilité de recherche des données archivées, et offrir l’infrastructure nécessaire à la mise en œuvre de standards de métadonnées, améliorant de ce fait leur interopérabilité.

Re3data est un registre mondial recensant les dépôts de données de recherche institutionnels, disciplinaires et interdisciplinaires.

When to think about this?

Comme déjà mentionné : « La gestion des données de recherche (RDM) inclut toutes les étapes avant, pendant et après le projet », ce qui signifie que vous devez gérer correctement vos données de recherche tout au long de leur cycle de vie afin de garantir la qualité et l’intégrité de vos travaux. Un plan de gestion des données (Data Management Plan – DMP) constitue le meilleur outil pour vous y aider.

Page précédente Page suivante

Gestion des données de Recherche

Gestion des données de recherche : une introduction

Que sont les « données de recherche » ?

Les données de recherche désignent l’ensemble des données, qu’elles soient numériques ou physiques – indépendamment de la manière dont elles sont collectées ou stockées – qui sont utilisées ou analysées pour étayer des résultats de recherche, valider des conclusions scientifiques ou soutenir un raisonnement, une discussion ou un calcul dans le cadre d’une étude. Elles couvrent tout le spectre allant des données brutes aux données traitées et analysées, incluses ou discutées dans une publication. Ces données peuvent être produites, dérivées ou composites, qu’elles soient générées par le chercheur ou fournies par des tiers. Quelques exemples : résultats d’enquêtes, données statistiques, graphiques, données informatiques, simulations, logiciels développés à des fins de recherche, métadonnées computationnelles, impressions, enregistrements vidéo et audio, corpus, organismes, séquences génétiques, composés synthétiques ou chimiques, échantillons de tout type, dossiers de patients, protocoles, mesures, carnets de laboratoire, etc.

Les données de recherche constituent le cœur battant de la recherche académique et représentent le moteur d’avancées majeures en matière de technologie, de santé et sur le plan socio-économique.

Gestion des données de recherche (Research Data Management – RDM)

Bien que les chercheurs travaillent en permanence avec des données pour les confronter à leurs hypothèses, celles-ci ne sont pas toujours traitées et stockées de manière rigoureuse durant et après le projet.

Parallèlement, notre société est de plus en plus marquée par une datafication croissante, avec un nombre toujours plus important de processus et d’actions reposant sur des données numériques. Cette évolution rend possible un type particulier de recherche fondée sur les données, basé sur la combinaison de (big) data et de nouvelles techniques d’analyse (par ex. la « data science »).

Cet usage massif et le potentiel de réutilisation des données rendent indispensable une gestion solide des données de recherche au sein de la communauté scientifique. La bonne manipulation des données – appelée gestion des données de recherche (Research Data Management – RDM) – doit donc constituer l’une des pierres angulaires des bonnes pratiques académique de la recherche. La RDM englobe toutes les étapes avant, pendant et après le projet, autrement dit le cycle de vie des données de recherche : planification, collecte, traitement, analyse, sécurisation, stockage, préservation, accès, partage et réutilisation.

Chacune de ces étapes est encadrée par des conditions et des réglementations d’ordre juridique, éthique et technologique.

L’importance de la gestion des données de recherche

Une gestion prudente et réfléchie des données (Research Data Management – RDM) améliore la qualité et l’intégrité de la recherche, accroît son impact, tout en renforçant la visibilité et la réutilisation des données. Un bon traitement des données permet de prévenir leur perte ou leur corruption, de limiter les risques de fraude et/ou de « mauvaise science ». Il rend le processus de recherche plus fluide et garantit que les données pourront être retrouvées et réutilisées ultérieurement. De plus, le partage et la réutilisation des données facilitent la tâche des chercheurs futurs, favorisant ainsi le développement de nouvelles recherches tant au sein qu’en dehors de l’université.

Imaginez que vous lisiez un article scientifique et que vous souhaitiez comprendre le fonctionnement exact de l’algorithme utilisé par les auteurs, ou encore la manière dont ils ont construit un certain graphique. Ne serait-il pas idéal de pouvoir cliquer sur un simple lien et télécharger ces informations ? Maintenant, imaginez que vous ayez une idée brillante pour analyser différemment les données d’une étude… mais que les données originales soient introuvables. Combien de temps perdriez-vous à devoir en collecter de nouvelles ? Et si, après avoir finalement mis la main sur les données, celles-ci s’avéraient totalement inintelligibles : impossible de décoder l’unité de mesure de la variable B, etc. Quelle déception après tous ces efforts pour les obtenir ! En effet, cela peut vite devenir un véritable casse-tête.

Chaque chercheur a la responsabilité de contribuer à un monde où les données sous-jacentes aux résultats scientifiques sont facilement accessibles et interprétables. D’où la nécessité d’une gestion rigoureuse des données de recherche. Les chercheurs sont d’ailleurs de plus en plus tenus de mettre en pratique une approche solide de gestion des données tout au long de leurs projets. Ces exigences récentes en matière de RDM sont désormais souvent formalisées dans les politiques institutionnelles, par les bailleurs de fonds (par exemple, l’obligation d’élaborer un plan de gestion des données) et par les revues scientifiques (par exemple, l’inclusion d’une data availability statement (déclaration de disponibilité des données) dans les articles). À première vue, ces obligations peuvent sembler contraignantes, notamment pour les chercheurs peu familiers avec la RDM. Mais en y regardant de plus près, on constate qu’elles apportent une aide précieuse au cours du processus de recherche. Elles visent surtout à améliorer nos pratiques scientifiques, à rendre les résultats plus transparents et plus reproductibles.

Rétractation d’un article faute d’accès aux données sous-jacentes. Cas : The Lancet et The New England Journal of Medicine rétractent des études controversées sur la COVID-19 basées sur les données de Surgisphere – Retraction Watch :

« Deux jours après avoir publié des expressions de préoccupation concernant des articles controversés sur la COVID-19, The Lancet et le New England Journal of Medicine ont rétracté ces articles en raison du fait qu’un certain nombre d’auteurs n’avaient pas obtenu l’accès aux données sous-jacentes […]. »

« […] Étant donné que tous les auteurs n’ont pas eu accès aux données brutes et que celles-ci n’ont pas pu être mises à disposition d’un auditeur tiers, nous ne sommes pas en mesure de valider les sources de données primaires ayant servi de base à notre article « Cardiovascular Disease, Drug Therapy, and Mortality in Covid-19 ». Nous demandons donc la rétractation de cet article. Nous présentons nos excuses aux éditeurs et aux lecteurs de la revue pour les difficultés que cela a pu engendrer. » »

Qui est concerné ?

Researchers in general

Le chercheur élabore un plan de gestion des données (data management plan) pour sa recherche, décrivant comment les données seront collectées, organisées, documentées, stockées, utilisées et préservées tout au long du cycle de vie de la recherche. Il met en œuvre de bonnes pratiques de gestion des données et veille à ce qu’elles restent accessibles à long terme.

Supervisor - Mentor

Le -superviseur soutient et conseille le chercheur en matière de pratiques de gestion des données et de responsabilités éthiques, juridiques et contractuelles.

University

L’institution / l’université fournit les outils, l’infrastructure et les politiques nécessaires pour que le chercheur puisse mettre en œuvre de bonnes pratiques de gestion des données.

Data Steward

Les data stewards et le personnel de soutien à la recherche offrent conseils, accompagnement et formation au chercheur sur la gestion (et la planification) des données.

Le Code ALLEA confirme également, avec force, l’importance de la gestion des données de recherche et précise que :

Les chercheurs, les institutions et les organismes de recherche assurent une gestion et une conservation adéquates de toutes les données et de tout matériel de recherche, y compris ceux qui n’ont pas été publiés, et veillent à leur préservation sécurisée pendant une période raisonnable.
Les chercheurs, les institutions et les organismes de recherche s’assurent que l’accès aux données est aussi ouvert que possible, mais aussi fermé que nécessaire et, le cas échéant, conforme aux principes FAIR (autrement dit, facile à trouver, accessible, interopérable et réutilisable) en ce qui concerne la gestion des données.
Les chercheurs, les institutions et les organismes de recherche font preuve de transparence concernant la manière de consulter ou d’utiliser leurs données et matériel de recherche.
Les chercheurs informent les participants à la recherche de la manière dont leurs données seront utilisées, réutilisées, consultées, stockées et supprimées, en conformité avec le RGPD.
Les chercheurs, les institutions et les organismes de recherche reconnaissent que les données sont des produits légitimes de la recherche, qui peuvent être cités.

Page précédente Page suivante