Le GERAR s’intéresse à la validité des protocoles de
recherche et à la fiabilité des mesures utilisées. Le lien est évident en
pratique : Utilisons-nous les bonnes techniques, mesures, évaluations pour
objectiver un état ou une fonction ? Le niveau de fiabilité ou d’accord
des échelles, classifications ou instruments sont très largement inconnues.
Mais existe-t-il des recommandations de bonnes pratiques dans ce domaine ?
Un collectif de chercheurs s’est penché sur ces questions en
évaluant les articles qui rapportent la fiabilité ou l’accord d’une mesure,
d’un score ou encore d’un diagnostic. Un constat : Ces études
scientifiques ne suivent jamais les mêmes schémas et par conséquent ne
fournissent jamais les mêmes informations. Pour améliorer la qualité des études
scientifiques s’intéressant à la fiabilité, les « Guidelines for Reporting
Reliability and Agreement Studies » ont été rédigées.
Avant de proposer leurs recommandations, les auteurs
soulignent la confusion qui règne autour des notions d’accord (agreement) et de
fiabilité (reliability). L’accord entre 2 mesures ou 2 techniques est le degré
de similarité, alors que la fiabilité est la variabilité de mesure entre sujets
ou entre machines. Cette étude s’intéresse également à :
l’accord ou la fiabilité inter-évaluateur
(interrater) : Plusieurs évaluateurs utilisant le même score, échelle,
classification ou instrument avec le même sujet ou instrument.
L’accord ou la fiabilité intra-évaluateur (intrarater) :
Le même évaluateur utilisant le même
score, échelle, classification ou instrument appréciant le même sujet ou
instrument à différent moment. Connu aussi sous le nom de test-retest.
9 experts internationaux ont collaborés pour créer ces
recommandations qui s’articulent autour de 15 points. Le GERAR se propose
d’approfondir ces différents points. Vous retrouvez dans le tableau ci-dessous
les différentes recommandations selon le schéma IMRaD.
1 - Le titre doit comporter les termes accord ou fiabilité
ainsi que intra ou inter-évaluateur. Pourquoi ? Parce que les études
portant sur cette thématique sont nombreuses mais souvent le titre n’y fait pas
référence ou le titre utilise des termes différents : inter observateurs,
intra examinateur, reproductibilité,
etc. Parfois même des études évaluent la fiabilité ou l’accord au sein d’une
plus large étude, seulement ces informations ne sont pas explicitées dans le
titre. De plus, les termes intra ou inter évaluateurs ne sont pas ou mal
indexés dans les bases de données des mots-clés des moteurs de recherches
d’articles scientifiques. Et souvent ceux-ci (Embase, PubMed, PsycINFO) ne
s’accordent pas entre eux sur les définitions des termes possèdent des
définitions différentes pour la fiabilité, accord, inter ou intra-évaluateur.
2 - Lorsque vous étudiez la fiabilité ou l’accord entre deux
(ou plus) mesures ou deux (ou plus) techniques, il faut définir et expliciter
les échelles ou les scores utilisées, leur définition et la version utilisée.
Par exemple, pour les classifications par catégories, il
faut donc spécifier le nombre d’items, de sous-items, parce que la valeur et
l’interprétation de la fiabilité ou l’accord intra-évaluateur est dépendant de
ce nombre. L’atteinte respiratoire liée à la BPCO est classée par grade de 1 à
4, du plus léger au plus grave, ou encore le niveau de stress : léger,
moyen, important.
Pour les mesures de variables continues, c’est l’amplitude
qui compte et qui influence la fiabilité ou l’accord inter-évaluateur.
Pour vérifier la fiabilité d’une nouvelle échelle par
exemple, il faut rédiger et justifier le rationnel de cette nouvelle échelle
grâce aux études scientifiques précédentes.
3 & 4 – Il est primordial de bien définir la population
au départ de l’étude car la fiabilité et l’accord sont des valeurs dépendantes
des sujets (ex : valeurs anthropométriques, pathologies, date d’opération,
etc.) et/ou des évaluateurs (ex : cursus, métier, expérience, etc.) dans
un contexte précis.
5 – Lorsque vous désirez vérifier la fiabilité ou l’accord
de mesures déjà réalisée et publiée il est recommandé de réaliser une revue de
la littérature et d’expliquer
pourquoi votre étude apporte quelque-chose de plus par rapport aux données
existantes.
6 – Le nombre de patients et/ou d’évaluateurs doit être
déterminé et si possible calculé statistiquement. A défaut, la taille de
l’échantillon doit être justifiée : contraintes organisationnelles,
financières, etc.
7 – La manière dont sont intégrés les sujets au sein de
l’échantillon doit être clairement établie pour les sujets mais aussi pour les
évaluateurs. Si c’est par randomisation, de quel type est-elle ?
8 – La standardisation du protocole et la rédaction des
consignes de standardisation doivent mettre en lumière le lieu et les
conditions dans lesquelles se sont déroulés les tests : température,
éclairage, avant ou après manger, intervalle entre les passages, type de repos,
etc. Dans un contexte clinique, tentez de vous rapprochez le plus possible des
conditions de terrains habituelles. Il faut statuer et décrire également quelles
informations sont données, de quelle manière et à qui.. Concernant les données
finales, pour plus de fiabilité, il est recommandé d’utiliser la moyenne des
différents évaluateurs.
9 – Lorsque plusieurs évaluateurs sont recrutés pour une
étude de fiabilité ou d’accord, ils ne doivent pas communiquer les uns avec les
autres, au risque de se mettre d’accord sur des valeurs ou des appréciations.
10 – Chaque analyse statistique est dépendante de l’hypothèse
et du type de variables utilisées. Il n’y a donc pas de traitement statistique
spécifique pour des études de fiabilité ou d’accord, il est recommandé
d’expliciter votre choix du test statistique, par exemple il existe plusieurs
coefficients kappa ou de corrélation intra-classe. Comme pour les autres
études, il est important d’annoncer le logiciel utilisé et sa version.
11 & 12 – Soyez clairs dans vos résultats : combien
d’évaluateurs, de patients inclus/exclus dans l’étude, de patients testés, absents,
etc. Les caractéristiques des sujets mais aussi des professionnels investis
dans l’étude doivent être énoncés. Généralement, un tableau permet de résumer
de façon claire toutes ces informations.
13 – Donner les détails du test utilisé pour l’analyse statistique,
avec des références bibliographies. L’intervalle de confiance (IC) est une
donnée importante afin de permettre au lecteur une interprétation aisée car l’amplitude
de cet IC permet souvent de prendre des décisions cliniques. Lorsque les paramètres
de fiabilité ou d’accord sont à un niveau satisfaisant, les auteurs
recommandent d’interpréter ces résultats et de définir une limite basse.
14 – Au sein de la littérature scientifique, nombreux sont
les auteurs qui n’accordent pas les mêmes labels aux résultats de leurs
analyses statistiques. Vous trouverez par exemple des adjectifs tels que
mauvais/parfait ou faible/fort. Pour certains des coefficients de 0.6, 0.7 ou
0.8 sont des stricts minimum à atteindre pour objectiver d’une
« bonne » fiabilité. Les GRRAS se positionnent pour que les auteurs
trouvent une limite minimum pour les coefficients qui sont en adéquation avec
la pratique clinique qui en découle.
15 – Considérant que l’estimation d’une fiabilité ou d’un
accord est influencée par de nombreux paramètres : analyse statistique,
évaluateurs, échantillon, sujets, instruments de mesure, etc., il semble pour
les auteurs qu’un partage des données brutes permettrait d’obtenir des
méta-analyses de meilleurs qualité voire même de refaire les calculs par les
relecteurs. Toutes ces données pourraient être mises en ligne avec l’article.
Avis du GERAR.
Dans un souci d’uniformisation (forme et fond) des articles
scientifiques, le GERAR s’intéresse aux recommandations de bonnes pratiques
concernant la rédaction d’articles scientifiques liée à la fiabilité et aux
études de test re-test. Avant d’écrire un article concernant le site internet
EQUATOR rassemble toutes les recommandations. D’autres sites semblables à
EQUATOR existent, tels que CONSORT qui lui s’intéresse aux recommandations
concernant les essais contrôlés randomisés.
Dans cet article, les auteurs explique leur méthode de
travail et la manière dont s’est écrit et a évolué leurs recommandations. Ces 9
auteurs ont travaillé selon la « Delphi Method » Méthode Delphes,
plutôt intéressant. Une personne = une voix où une voix ne possède pas plus de
poids qu’une autre. A mettre en lien avec l’intérêt du travail de groupe et la
pluridisciplinarité. Plus de détails ici.
Ce papier est intéressant car il donne des indications
précises sur la construction d’un article scientifique s’intéressant à la
fiabilité ou l’accord intra ou inter évaluateur. Ce qui est d’une grande aide
dans la rédaction. N’hésitez pas à spécifier que vous avez suivi les recommandations
GRRAS dans votre papier : un plus lors de la relecture ? En théorie
oui, mais tout dépend bien sûr, du suivi de ces recommandations.
En aucun cas, le GRRAS est une autorité à part entière. Pour
ces auteurs celles-ci posent les bases d’un travail qui doit être continué afin
d’améliorer ces recommandations. Les auteurs concluent d’ailleurs “ We believe that this first draft may
be improved upon and updated in the future. We appreciate any comments or
suggestions by readers and users.” A nous de faire évoluer cette
recommandation pour les études de fiabilité ou d’accord.
MV.
Bibliographie:
Kottner J. et al. Guidelines for Reporting Reliability and
Agreement Studies (GRRAS) were
Proposed. 2011. International Journal of Nursing Studies 48;
661–671. Accès
restreint
Aucun commentaire:
Enregistrer un commentaire