La statistique n'est pas une accumulation de chiffres mais
plutôt un mode de pensée [1], et comme tout mode de pensée, celle-ci doit être
explicitée afin de mieux l'appréhender. Les statistiques possèdent toute sa
place dans le domaine des sciences de la santé, surtout dans une logique de pratique
basée sur les preuves.
Depuis les années 1960, les études scientifiques utilisent
presque exclusivement la p-value, mais elle fait l’objet d’une méconnaissance
et d’une mauvaise utilisation [2]. Les erreurs fréquentes de définition de la
p-value ainsi que sa dépendance à la taille de l'échantillon fragilisent et
remettent en question son utilisation au sein de la logique statistique
fréquentiste.
La p-value est la probabilité qui quantifie le désaccord
observé entre la thérapeutique utilisée et l’hypothèse nulle, de ce fait le choix d’une hypothèse par rapport à une autre se fait grâce à la p-value. Il
convient d’appeler une différence statistique significative tout différence qui
a, au minimum, 5 chances sur 100 de se produire simplement par hasard [3]. Le
seuil de la signification statistique est fixé historiquement à 5%, celui-ci
peut être plus restrictif en fonction des études et correspond au risque d’erreur
α [3]. De ce fait une p-value inférieure à 5% rejette l’H0 et l’hypothèse
alternative est plus probable.
La p-value ne renseigne pas sur l’importance de la
différence. En ce sens il n’y a pas de différence hautement significative ou de
résultats significativement élevé, mais plutôt des petites p-values concluant à
une différence significative ou des résultats significativement différents
entre deux échantillons. C'est toute la différence entre des p-value de 0,04 et
0,003 [4]. Il est indispensable de connaître la valeur exacte de cette p-value
afin de désacraliser ce seuil de p<0,05 [2,4]. Une p-value non significative
ne prouve pas que l'étude soit sans résultat, sachant que la p-value est
dépendante de la taille de l'échantillon, il vous sera difficile de trouver une
différence statistiquement significative avec des groupes de petites tailles.
Il faut toujours garder en tête que « the absence of evidence is not evidence
of absence » [5]
Lorsqu'une p-value est égale à 0,048 ou à 0,052, quelle
décision prendre quand les valeurs sont proches d'une significativité
statistique ? L’intervalle de confiance (IC) complète la p-value en
donnant une information sur l’ensemble des valeurs compatibles avec une moyenne
ou une proportion. L’IC95% est le plus cité dans les études, cet IC est alors
une fourchette de valeurs qui possède 95% de chances de contenir la vraie
moyenne ou proportion [6]. En fonction de la limite clinique et des valeurs
statistiquement significatives que vous avez fixées, l'IC contient valeurs qui
sont cliniquement importante. Concrètement, lorsque la différence entre 2
thérapeutique n'est pas statistiquement significative, l'amplitude de l'IC
contient la valeur zéro [6]. Plus l’écart entre la valeur retrouvée et les
bornes supérieures et inférieures de l’IC95% est faible, plus votre résultat
est précis. Cette précision est dépendante du nombre de sujet présent dans
l'échantillon, plus l'échantillon est important plus cette précision augmente.
.
La p-value détermine donc la probabilité existante que
l'effet observé soit seulement du à la chance et l’IC indique l'écart des
valeurs pour le réel effet dans une population. Cet IC est au cœur de la
pratique basée sur des résultats précis en rapport avec la pratique et modère
la portée des résultats de l’étude [7].
Au lieu d'annoncer que l'effet de votre prise en charge est
statistiquement significatif, préférez l'annonce de vos résultats en y
intégrant l'IC : Le renforcement musculaire en excentrique a augmenté la
force de 41 N.m en moyenne, de 123 à 164 N.m (IC95% = 27 à 55 N.m, p=0,007).
Bien que de plus en plus recommandée par les différentes revues scientifiques,
l'utilisation de l'IC peine à trouver sa place dans l'interprétation des
résultats au sein des études cliniques [8].
Énoncées en début d'article, des différences significatives
sont retrouvées parce que la taille de l'échantillon est tout simplement grande.
L'analyse de la puissance statistique (PS) et de la taille de l'effet (TE)
permet de relativiser l'importance des tests d'hypothèses et donc de
l'interprétation de la significativité statistique. Bien que ces termes
commencent à être de plus en plus intégrés dans les articles scientifiques, il
est encore rare de voir des discussions autour de la TE et de la PS [9].
La TE
supplémente les tests d'hypothèses en donnant une indication sur la présence du
phénomène dans une population via les valeurs de la distribution. De ce fait, plus
la TE sera grande,
plus l'écart avec l'H0 sera important et inversement. L'oubli de traiter et
d'interpréter les TE des différentes études engendre des interprétations
contradictoires entre diverses études portant sur le même thème. Pour les
échantillons de petites tailles il faut des différences importantes pour
retrouver une p-value inférieure à 0,05. Même si la TE donne une signification aux
écarts retrouvés, celle-ci reste tout de même dépendante à la taille de
l'échantillon [9].
La PS
d’un test d’hypothèses est la probabilité qu’il rejette H0 lorsque H0 est
fausse, elle est souvent annotée 1-β. C'est donc sa capacité à déceler une
différence significative quand il y en a réellement une [3]. La PS d’un test peut être comparée
à celle d’une loupe : si un signe est perçu, son existence peut être affirmée.
Dans le cas contraire, ceci ne veut pas dire que ce signe n’existe pas, mais
peut être serait-il perceptible avec une loupe plus puissante [1]. Celle-ci
dépend principalement de trois paramètres : le seuil de signification, la
taille de l’échantillon et la taille de l’effet. Ainsi, quand le seuil de
signification est grand et que la taille de l'échantillon est important, la TE et la PS augmentent. Comme la TE, la
PS est dépendante de l'analyse statistique [9].
De nombreuses études énoncent des différences via des
conclusions hâtives en se basant sur des puissances statistiques trop faibles
car la taille des échantillons est trop petite, même si la p-value est
inférieure à 0,05. La plupart du temps les logiciels récents vous apporte sur
un plateau la puissance statistiques ainsi que la taille de l'effet [8].
Bibliographie :
[1] Schwartz D, Lazar P, Papoz L. Statistique médicale et
biologique. 5th Ed. Flammarion Médecine-Sciences. 1993. Ouvrage [2] Lang T. Twenty Statistical Errors Even YOU Can Find in
Biomedical Research Articles. Croat Med J. 2004 45:361-70. Accès libre. [3] Cucherat M. Interprétation des essais cliniques pour la
pratique médical. 2009. Site internet. [4] Cohen J. The Earth Is Round (p <0.05). American
Psychologist. 1994 49;12:997-1003 Accès restreint. [5] Whithley E, Ball J. Statistics review 4: Sample size
calculations. Critical Care. 2002, 6:335-41. Accès libre. [6] Sim J, Reid N. Statistical inference by confidence
intervals: issues of interpretation and utilization. Phys Ther. 1999 79:186-95. Accès libre. [7] Whithley E, Ball J. Statistics review 3: Hypothesis
testing and P values. Critical Care. 2002 6:222-5. Accès libre. [8] Champely S,Verdot C. Que signifie la significativité
statistique ? L'apport de la taille d'effet et de la puissance statistique.
Staps; 2007/3; 77:49-61. Accès libre. [9] Bourque J, Blais JG, Larose F. L'interprétation des
tests d’hypothèses : p, la taille de l’effet et la puissance. Revue des
sciences de l'éducation. 2009 35;1:211-26. Accès libre.
NB : Cet article ainsi que les suivants traitant de
l’analyse statistique, sont librement inspirés du dossier spécial « biostatistiques
: la dimension collective de nos individualités », paru dans la revue
Kinésithérapie La Revue
numéro 138, auquel le GERAR a participé. Il est bien évident que vous
retrouverez de plus amples détails (contenu et bilbiographie) dans les articles
originaux.
Vergnault M. Place des biostatistiques dans la littérature scientifique. Kinesither Rev 2013;13(138):16–19 Accès restreint.
Vergnault M. Principes et raisonnement en biostatistiques. Kinesither Rev 2013;13(138):20–24 Accès restreint.
Vergnault M. Quelles biostatistiques pour quelles études? Kinesither Rev 2013;13(138):25–30 Accès restreint
Bonjour,
RépondreSupprimerUne nouvelle fois, je me permets de mettre en garde les lecteurs vis à vis du contenu de ce billet. Les statistiques se vulgarisent très difficilement, et je conseille aux intéressés de consulter des ouvrages écrits par des statisticiens.
Ceci étant dit, je prends le temps de discuter plusieurs points.
'Les erreurs fréquentes de définition de la p-value' -> 'Il convient d’appeler une différence statistique significative tout différence qui a, au minimum, 5 chances sur 100 de se produire simplement par hasard [3]'
De toute les erreurs d'interprétation de la pvalue ou du risque de première espèce alpha, celle-ci est l'une des plus courantes ! Et restez vigilants, car vous prêtez à Mr Cucherat (qui, à ma connaissance, est l'un des rares à fournir d'excellentes définitions de ce qu'est, et ce que n'est pas la pvalue) des propos qu'il n'a assurément jamais tenus.
'Le seuil de la signification statistique est fixé historiquement à 5% [...] De ce fait une p-value inférieure à 5% rejette l’H0 et l’hypothèse alternative est plus probable'
Non. Dans l'approche fréquentiste, les hypothèses n'ont pas de probabité (à l'inverse de l'approche bayésienne) : les hypothèses sont vraies ou fausses.
'La p-value ne renseigne pas sur l’importance de la différence. En ce sens il n’y a pas de différence hautement significative ou de résultats significativement élevé'
Ce sont 2 choses différences. La première phrase est juste, la seconde est fausse.
'L’IC95% est le plus cité dans les études, cet IC est alors une fourchette de valeurs qui possède 95% de chances de contenir la vraie moyenne ou proportion [6].'
Là encore, cette définition est fausse. Un intervalle de confiance à 95% n'a pas 95% de chances de contenir la vraie valeur du paramètre en population. Toujours pour la raison simple que dans l'approche fréquentiste, on n'assigne pas de probabilité aux paramètres en population. De nouveau vous mesinterprétez les propos de l'auteur.
'La p-value détermine donc la probabilité existante que l'effet observé soit seulement du à la chance'
Non. La pvalue est une probabilité (conditionnelle) calculée sous l'hypothèse nulle, ce qui est totalement différent .
'Énoncées en début d'article, des différences significatives sont retrouvées parce que la taille de l'échantillon'
'Peuvent être retrouvées ' ET NON 'sont retrouvées'
'Même si la TE donne une signification aux écarts retrouvés, celle-ci reste tout de même dépendante à la taille de l'échantillon [9].'
Absolument pas. La taille d'effet est une différence standardisée des paramètres estimés, et est strictement indépendante de la taille des échantillons. À nouveau vous mesinterprétez les propose des auteurs.
'La PS d’un test [...] C'est donc sa capacité à déceler une différence significative quand il y en a réellement une [3].'
Non, la puissance d'un test statistique est sa capacité à mettre en évidence une différence (en fournissant une pvalue < 0.05, donc un résultat significatif) qui existe réellement.
'Ainsi, quand le seuil de signification est grand et que la taille de l'échantillon est important, la TE et la PS augmentent.'
Ici, entre autre, vous confondez le seuil de signification (pvalue), avec le risque de première espèce alpha. Et, à nouveau, vous affirmez à tort que la taille d'effet est dépendante de la taille des échantillons.
Bonjour Anonyme,
RépondreSupprimerBeaucoup de ces affirmations sont ce que j'ai eu l'occasion de lire soit dans les articles cités ou dans d'autres non cités mais présent dans les articles originaux. D'une certaine logique, il y a beaucoup d'erreurs dans ces articles... Une petite lecture critique de ces articles, une lettre aux rédacteurs afin de souligner les erreurs, non?
Je me permets juste de rebondir sur votre remarque concernant Mr Cucherat, il serait bon de relire ce qu'il écrit sur son site : http://www.spc.univ-lyon1.fr/polycop/
Ceci écrit, j'aime beaucoup vos commentaires mais dans un soucis de preuves... J'aimerais lire des articles qui prouvent et qui valident ce que vous dites afin de comparer avec la bibliographie de ces billets.
Cdt.
MV.
Toutes mes excuses !
RépondreSupprimer'Ainsi, quand le seuil de signification est grand et que la taille de l'échantillon est important, la TE et la PS augmentent.'
Ici, entre autre, vous confondez le seuil de signification (pvalue), avec le risque de première espèce alpha.
Pour le coup, je suis allé trop vite et ai écrit une erreur : le seuil de signification est bien alpha et non la pvalue !
Concernant le site de Mr Cucherat, pouvez-vous faire un copier-coller du passage que vous lui 'attribuez' (en le reformulant) ? 'Il convient d’appeler une différence statistique significative tout différence qui a, au minimum, 5 chances sur 100 de se produire simplement par hasard [3]
RépondreSupprimerToutes ces notions sont dans l'excellent livre de Jean Bouyer 'Méthodes statistiques : médecine-biologie'.
Cordialement
http://statistical-research.com/some-issues-relating-to-margin-of-error/ Un sujet qui peut vite énerver :-)
RépondreSupprimerCordialement
Un dernier lien vers 'Pourquoi est-ce mal d'apprendre aux etudiants que la pvalue est la probabilité que les resultats soient dus au hasard ?' http://stats.stackexchange.com/questions/16939/why-is-it-bad-to-teach-students-that-p-values-are-the-probability-that-findings
RépondreSupprimerDésolé pour le flood!
Cordialement,
"Tout ce que l’on peut dire, en concluant à l’existence d’une différence avec un test statistiquement significatif, c’est que l’on a 5 chances sur 100 seulement d’aboutir à une telle conclusion par le simple fait du hasard." Ch 4. Point 7.
RépondreSupprimerMerci pour les liens.