Gestion des données de Recherche
Gestion des données de recherche : une introduction
Que sont les « données de recherche » ?
Les données de recherche désignent l’ensemble des données, qu’elles soient numériques ou physiques – indépendamment de la manière dont elles sont collectées ou stockées – qui sont utilisées ou analysées pour étayer des résultats de recherche, valider des conclusions scientifiques ou soutenir un raisonnement, une discussion ou un calcul dans le cadre d’une étude. Elles couvrent tout le spectre allant des données brutes aux données traitées et analysées, incluses ou discutées dans une publication. Ces données peuvent être produites, dérivées ou composites, qu’elles soient générées par le chercheur ou fournies par des tiers. Quelques exemples : résultats d’enquêtes, données statistiques, graphiques, données informatiques, simulations, logiciels développés à des fins de recherche, métadonnées computationnelles, impressions, enregistrements vidéo et audio, corpus, organismes, séquences génétiques, composés synthétiques ou chimiques, échantillons de tout type, dossiers de patients, protocoles, mesures, carnets de laboratoire, etc.
Les données de recherche constituent le cœur battant de la recherche académique et représentent le moteur d’avancées majeures en matière de technologie, de santé et sur le plan socio-économique.
Gestion des données de recherche (Research Data Management – RDM)
Bien que les chercheurs travaillent en permanence avec des données pour les confronter à leurs hypothèses, celles-ci ne sont pas toujours traitées et stockées de manière rigoureuse durant et après le projet.
Parallèlement, notre société est de plus en plus marquée par une datafication croissante, avec un nombre toujours plus important de processus et d’actions reposant sur des données numériques. Cette évolution rend possible un type particulier de recherche fondée sur les données, basé sur la combinaison de (big) data et de nouvelles techniques d’analyse (par ex. la « data science »).
Cet usage massif et le potentiel de réutilisation des données rendent indispensable une gestion solide des données de recherche au sein de la communauté scientifique. La bonne manipulation des données – appelée gestion des données de recherche (Research Data Management – RDM) – doit donc constituer l’une des pierres angulaires des bonnes pratiques académique de la recherche. La RDM englobe toutes les étapes avant, pendant et après le projet, autrement dit le cycle de vie des données de recherche : planification, collecte, traitement, analyse, sécurisation, stockage, préservation, accès, partage et réutilisation.
Chacune de ces étapes est encadrée par des conditions et des réglementations d’ordre juridique, éthique et technologique.
L’importance de la gestion des données de recherche
Une gestion prudente et réfléchie des données (Research Data Management – RDM) améliore la qualité et l’intégrité de la recherche, accroît son impact, tout en renforçant la visibilité et la réutilisation des données. Un bon traitement des données permet de prévenir leur perte ou leur corruption, de limiter les risques de fraude et/ou de « mauvaise science ». Il rend le processus de recherche plus fluide et garantit que les données pourront être retrouvées et réutilisées ultérieurement. De plus, le partage et la réutilisation des données facilitent la tâche des chercheurs futurs, favorisant ainsi le développement de nouvelles recherches tant au sein qu’en dehors de l’université.
Imaginez que vous lisiez un article scientifique et que vous souhaitiez comprendre le fonctionnement exact de l’algorithme utilisé par les auteurs, ou encore la manière dont ils ont construit un certain graphique. Ne serait-il pas idéal de pouvoir cliquer sur un simple lien et télécharger ces informations ? Maintenant, imaginez que vous ayez une idée brillante pour analyser différemment les données d’une étude… mais que les données originales soient introuvables. Combien de temps perdriez-vous à devoir en collecter de nouvelles ? Et si, après avoir finalement mis la main sur les données, celles-ci s’avéraient totalement inintelligibles : impossible de décoder l’unité de mesure de la variable B, etc. Quelle déception après tous ces efforts pour les obtenir ! En effet, cela peut vite devenir un véritable casse-tête.
Chaque chercheur a la responsabilité de contribuer à un monde où les données sous-jacentes aux résultats scientifiques sont facilement accessibles et interprétables. D’où la nécessité d’une gestion rigoureuse des données de recherche. Les chercheurs sont d’ailleurs de plus en plus tenus de mettre en pratique une approche solide de gestion des données tout au long de leurs projets. Ces exigences récentes en matière de RDM sont désormais souvent formalisées dans les politiques institutionnelles, par les bailleurs de fonds (par exemple, l’obligation d’élaborer un plan de gestion des données) et par les revues scientifiques (par exemple, l’inclusion d’une data availability statement (déclaration de disponibilité des données) dans les articles). À première vue, ces obligations peuvent sembler contraignantes, notamment pour les chercheurs peu familiers avec la RDM. Mais en y regardant de plus près, on constate qu’elles apportent une aide précieuse au cours du processus de recherche. Elles visent surtout à améliorer nos pratiques scientifiques, à rendre les résultats plus transparents et plus reproductibles.
Rétractation d’un article faute d’accès aux données sous-jacentes. Cas : The Lancet et The New England Journal of Medicine rétractent des études controversées sur la COVID-19 basées sur les données de Surgisphere – Retraction Watch :
« Deux jours après avoir publié des expressions de préoccupation concernant des articles controversés sur la COVID-19, The Lancet et le New England Journal of Medicine ont rétracté ces articles en raison du fait qu’un certain nombre d’auteurs n’avaient pas obtenu l’accès aux données sous-jacentes […]. »
« […] Étant donné que tous les auteurs n’ont pas eu accès aux données brutes et que celles-ci n’ont pas pu être mises à disposition d’un auditeur tiers, nous ne sommes pas en mesure de valider les sources de données primaires ayant servi de base à notre article « Cardiovascular Disease, Drug Therapy, and Mortality in Covid-19 ». Nous demandons donc la rétractation de cet article. Nous présentons nos excuses aux éditeurs et aux lecteurs de la revue pour les difficultés que cela a pu engendrer. » »
Qui est concerné ?
Le chercheur élabore un plan de gestion des données (data management plan) pour sa recherche, décrivant comment les données seront collectées, organisées, documentées, stockées, utilisées et préservées tout au long du cycle de vie de la recherche. Il met en œuvre de bonnes pratiques de gestion des données et veille à ce qu’elles restent accessibles à long terme.
Le -superviseur soutient et conseille le chercheur en matière de pratiques de gestion des données et de responsabilités éthiques, juridiques et contractuelles.
L’institution / l’université fournit les outils, l’infrastructure et les politiques nécessaires pour que le chercheur puisse mettre en œuvre de bonnes pratiques de gestion des données.
Les data stewards et le personnel de soutien à la recherche offrent conseils, accompagnement et formation au chercheur sur la gestion (et la planification) des données.
Le Code ALLEA confirme également, avec force, l’importance de la gestion des données de recherche et précise que :
- Les chercheurs, les institutions et les organismes de recherche assurent une gestion et une conservation adéquates de toutes les données et de tout matériel de recherche, y compris ceux qui n’ont pas été publiés, et veillent à leur préservation sécurisée pendant une période raisonnable.
- Les chercheurs, les institutions et les organismes de recherche s’assurent que l’accès aux données est aussi ouvert que possible, mais aussi fermé que nécessaire et, le cas échéant, conforme aux principes FAIR (autrement dit, facile à trouver, accessible, interopérable et réutilisable) en ce qui concerne la gestion des données.
- Les chercheurs, les institutions et les organismes de recherche font preuve de transparence concernant la manière de consulter ou d’utiliser leurs données et matériel de recherche.
- Les chercheurs informent les participants à la recherche de la manière dont leurs données seront utilisées, réutilisées, consultées, stockées et supprimées, en conformité avec le RGPD.
- Les chercheurs, les institutions et les organismes de recherche reconnaissent que les données sont des produits légitimes de la recherche, qui peuvent être cités.