Les statistiques en recherche
Les statistiques en recherche
Selon les disciplines, l’analyse statistique est un élément essentiel pour étayer les résultats. Le problème rencontré par beaucoup de chercheurs est qu’ils sont formés à devenir chercheurs, mais pas nécessairement statisticiens, alors que les statistiques constituent un champ de recherche à part entière. Ainsi, il est crucial que les chercheurs fassent preuve d’esprit critique quant aux analyses statistiques qu’ils réalisent et qu’ils consultent des experts chaque fois que nécessaire. De la même manière que l’on sollicite un spécialiste pour utiliser un équipement technique complexe, il est indispensable de comprendre le fonctionnement de cet « outil » et de savoir quelles informations peuvent en être tirées, et lesquelles ne le peuvent pas.
Bonnes pratiques académiques en matière d’analyse statistique
La manière, dont les données sont analysées, a un impact direct sur la validité et la solidité des conclusions de recherche. Les chercheurs doivent donc définir une stratégie d’analyse statistique solide avant même la collecte des premières données.
Quelques bonnes pratiques :
- Tout commence par une question de recherche clairement définie. Construisez votre étude et planifiez l’analyse statistique en fonction de cette question. Combien d’observations sont nécessaires ? Quelles variables prendre en compte ? Quels tests statistiques sont pertinents ?
- Suivez des formations en analyse de données. Sans faire de vous un expert statisticien, elles vous donneront une meilleure compréhension des techniques disponibles et des écueils à éviter.
- Associez un statisticien à toutes les étapes du projet. Lors de l’élaboration du budget, prévoyez une enveloppe financière pour bénéficier de son expertise.
- Connaissez les limites des différents tests statistiques. Soyez critique : n’utilisez pas un test simplement parce qu’il est courant dans votre équipe de recherche ou qu’un autre chercheur l’a fait.
- Restez critique vis-à-vis de vos données. Un résultat statistiquement significatif n’implique pas nécessairement qu’il soit robuste ou pertinent. Existe-t-il des explications alternatives ?
- Explorer plusieurs tests statistiques n’est pas problématique en soi, à condition qu’ils soient appropriés à l’objectif visé et non choisis pour sélectionner artificiellement le « meilleur » résultat. L’analyse doit aussi tenir compte du nombre de tests effectués.
- De même, l’omission de données peut être justifiable, mais elle doit être motivée par des raisons explicites et valides.
Flames (Flanders’ training network for statistics and methodology) est un réseau de formation interuniversitaire, ancré dans les cinq universités flamandes, consacré aux statistiques et à la méthodologie.
Quelques autres méthodes permettant de renforcer la robustesse d’une analyse sont :
- Analyse à l’aveugle (Blind analysis) (MacCoun & Perlmutter, 2015; Dutilh et al., 2019)
- Analyse multi-scénarios (Multiverse analysis) (Steegen et al., 2016)
- Validation croisée (Cross-validation) (Koul et al., 2018)
Qui est concerné ?
Chercheurs débutants / doctorants : dans la plupart des cas, ils assument les aspects pratiques tels que la collecte des données et l’analyse statistique. La formation en analyse statistique fait partie intégrante de leur parcours de recherche.
Chercheurs plus expérimentés : beaucoup de chercheurs ne sont pas familiers avec les statistiques. Les chercheurs confirmés doivent donc guider les plus jeunes en veillant à la solidité scientifique de l’analyse statistique et/ou en les orientant vers des experts si nécessaire.
auteurs : ils doivent exercer un regard critique suffisant afin de garantir que l’analyse statistique est rigoureuse.
Revues scientifiques : elles doivent s’assurer que les travaux soumis contiennent assez d’informations pour permettre aux lecteurs d’interpréter correctement les données et d’en évaluer la portée.
Toutes les revues ne disposent pas d’une section dédiée précisant qui est responsable de l’analyse statistique. L’utilisation des rôles contributifs CRediT (Contributor Roles Taxonomy) permet de valoriser la contribution des statisticiens dans la publication de manière adéquate.
On a souvent l’impression que les résultats dont la p-value est inférieure à 0,05 ont plus de valeur et attirent davantage l’attention dans la communauté scientifique. Dès lors, les chercheurs peuvent avoir intérêt à rechercher des résultats statistiquement significatifs. Cette pente glissante peut être résumée sous le terme de p-hacking, c’est-à-dire la pratique consistant à tester plusieurs analyses et/ou plusieurs critères d’éligibilité des données, puis à ne retenir que ceux qui produisent des résultats significatifs. Cette démarche augmente la probabilité d’associations faussement positives (simplement dues au hasard).
Les pratiques pouvant conduire au p-hacking incluent :
- la réalisation d’analyses en cours d’expérience et l’arrêt prématuré de la collecte de données dès qu’une p-value significative est obtenue.
- l’ajustement de la taille de l’échantillon dans l’espoir que la différence devienne significative.
- la limitation de l’analyse à un sous-ensemble des données.
- le retrait de valeurs extrêmes (outliers) sans justification valable.
- l’exploration de différents tests statistiques en ne poursuivant que ceux qui confirment les croyances personnelles du chercheur ou qui soutiennent l’hypothèse étudiée.
Lorsqu’ils analysent les données, les chercheurs peuvent donc être tentés de rechercher celles qui confirment leurs hypothèses ou leur expérience personnelle, en négligeant celles qui ne sont pas cohérentes avec leurs convictions.
Le p-hacking est problématique car il influence à la fois le processus de collecte des données et/ou l’analyse statistique. Cela peut engendrer un biais d’inflation, puisque les tailles d’effet rapportées dans la littérature ne correspondent pas toujours aux observations expérimentales. Il en résulte une atteinte sévère à la robustesse des données et à la reproductibilité comme à la réplicabilité des résultats.
Conseil :
Vous pouvez utiliser statcheck pour détecter des incohérences (dans les p-values) au niveau d’un article scientifique.
Illustration par xkcd sous licence Creative Commons Attribution – NonCommercial 2.5.