23.3.14

Le GERAR se penche sur les recommandations GRRAS.

   Le GERAR s’intéresse à la validité des protocoles de recherche et à la fiabilité des mesures utilisées. Le lien est évident en pratique : Utilisons-nous les bonnes techniques, mesures, évaluations pour objectiver un état ou une fonction ? Le niveau de fiabilité ou d’accord des échelles, classifications ou instruments sont très largement inconnues. Mais existe-t-il des recommandations de bonnes pratiques dans ce domaine ?

   Un collectif de chercheurs s’est penché sur ces questions en évaluant les articles qui rapportent la fiabilité ou l’accord d’une mesure, d’un score ou encore d’un diagnostic. Un constat : Ces études scientifiques ne suivent jamais les mêmes schémas et par conséquent ne fournissent jamais les mêmes informations. Pour améliorer la qualité des études scientifiques s’intéressant à la fiabilité, les « Guidelines for Reporting Reliability and Agreement Studies » ont été rédigées.


   Avant de proposer leurs recommandations, les auteurs soulignent la confusion qui règne autour des notions d’accord (agreement) et de fiabilité (reliability). L’accord entre 2 mesures ou 2 techniques est le degré de similarité, alors que la fiabilité est la variabilité de mesure entre sujets ou entre machines. Cette étude s’intéresse également à :
l’accord ou la fiabilité inter-évaluateur (interrater) : Plusieurs évaluateurs utilisant le même score, échelle, classification ou instrument avec le même sujet ou instrument.
L’accord ou la fiabilité intra-évaluateur (intrarater) : Le même évaluateur  utilisant le même score, échelle, classification ou instrument appréciant le même sujet ou instrument à différent moment. Connu aussi sous le nom de test-retest.

   9 experts internationaux ont collaborés pour créer ces recommandations qui s’articulent autour de 15 points. Le GERAR se propose d’approfondir ces différents points. Vous retrouvez dans le tableau ci-dessous les différentes recommandations selon le schéma IMRaD.



   1 - Le titre doit comporter les termes accord ou fiabilité ainsi que intra ou inter-évaluateur. Pourquoi ? Parce que les études portant sur cette thématique sont nombreuses mais souvent le titre n’y fait pas référence ou le titre utilise des termes différents : inter observateurs, intra examinateur,  reproductibilité, etc. Parfois même des études évaluent la fiabilité ou l’accord au sein d’une plus large étude, seulement ces informations ne sont pas explicitées dans le titre. De plus, les termes intra ou inter évaluateurs ne sont pas ou mal indexés dans les bases de données des mots-clés des moteurs de recherches d’articles scientifiques. Et souvent ceux-ci (Embase, PubMed, PsycINFO) ne s’accordent pas entre eux sur les définitions des termes possèdent des définitions différentes pour la fiabilité, accord, inter ou intra-évaluateur.


   2 - Lorsque vous étudiez la fiabilité ou l’accord entre deux (ou plus) mesures ou deux (ou plus) techniques, il faut définir et expliciter les échelles ou les scores utilisées, leur définition et la version utilisée.
Par exemple, pour les classifications par catégories, il faut donc spécifier le nombre d’items, de sous-items, parce que la valeur et l’interprétation de la fiabilité ou l’accord intra-évaluateur est dépendant de ce nombre. L’atteinte respiratoire liée à la BPCO est classée par grade de 1 à 4, du plus léger au plus grave, ou encore le niveau de stress : léger, moyen, important.
Pour les mesures de variables continues, c’est l’amplitude qui compte et qui influence la fiabilité ou l’accord inter-évaluateur.
Pour vérifier la fiabilité d’une nouvelle échelle par exemple, il faut rédiger et justifier le rationnel de cette nouvelle échelle grâce aux études scientifiques précédentes.

   3 & 4 – Il est primordial de bien définir la population au départ de l’étude car la fiabilité et l’accord sont des valeurs dépendantes des sujets (ex : valeurs anthropométriques, pathologies, date d’opération, etc.) et/ou des évaluateurs (ex : cursus, métier, expérience, etc.) dans un contexte précis.

   5 – Lorsque vous désirez vérifier la fiabilité ou l’accord de mesures déjà réalisée et publiée il est recommandé de réaliser une revue de la littérature et d’expliquer pourquoi votre étude apporte quelque-chose de plus par rapport aux données existantes.

   6 – Le nombre de patients et/ou d’évaluateurs doit être déterminé et si possible calculé statistiquement. A défaut, la taille de l’échantillon doit être justifiée : contraintes organisationnelles, financières, etc.

   7 – La manière dont sont intégrés les sujets au sein de l’échantillon doit être clairement établie pour les sujets mais aussi pour les évaluateurs. Si c’est par randomisation, de quel type est-elle ?

   8 – La standardisation du protocole et la rédaction des consignes de standardisation doivent mettre en lumière le lieu et les conditions dans lesquelles se sont déroulés les tests : température, éclairage, avant ou après manger, intervalle entre les passages, type de repos, etc. Dans un contexte clinique, tentez de vous rapprochez le plus possible des conditions de terrains habituelles. Il faut statuer et décrire également quelles informations sont données, de quelle manière et à qui.. Concernant les données finales, pour plus de fiabilité, il est recommandé d’utiliser la moyenne des différents évaluateurs.

   9 – Lorsque plusieurs évaluateurs sont recrutés pour une étude de fiabilité ou d’accord, ils ne doivent pas communiquer les uns avec les autres, au risque de se mettre d’accord sur des valeurs ou des appréciations.

   10 – Chaque analyse statistique est dépendante de l’hypothèse et du type de variables utilisées. Il n’y a donc pas de traitement statistique spécifique pour des études de fiabilité ou d’accord, il est recommandé d’expliciter votre choix du test statistique, par exemple il existe plusieurs coefficients kappa ou de corrélation intra-classe. Comme pour les autres études, il est important d’annoncer le logiciel utilisé et sa version.



   11 & 12 – Soyez clairs dans vos résultats : combien d’évaluateurs, de patients inclus/exclus dans l’étude, de patients testés, absents, etc. Les caractéristiques des sujets mais aussi des professionnels investis dans l’étude doivent être énoncés. Généralement, un tableau permet de résumer de façon claire toutes ces informations.

   13 – Donner les détails du test utilisé pour l’analyse statistique, avec des références bibliographies. L’intervalle de confiance (IC) est une donnée importante afin de permettre au lecteur une interprétation aisée car l’amplitude de cet IC permet souvent de prendre des décisions cliniques. Lorsque les paramètres de fiabilité ou d’accord sont à un niveau satisfaisant, les auteurs recommandent d’interpréter ces résultats et de définir une limite basse.

   14 – Au sein de la littérature scientifique, nombreux sont les auteurs qui n’accordent pas les mêmes labels aux résultats de leurs analyses statistiques. Vous trouverez par exemple des adjectifs tels que mauvais/parfait ou faible/fort. Pour certains des coefficients de 0.6, 0.7 ou 0.8 sont des stricts minimum à atteindre pour objectiver d’une « bonne » fiabilité. Les GRRAS se positionnent pour que les auteurs trouvent une limite minimum pour les coefficients qui sont en adéquation avec la pratique clinique qui en découle.

   15 – Considérant que l’estimation d’une fiabilité ou d’un accord est influencée par de nombreux paramètres : analyse statistique, évaluateurs, échantillon, sujets, instruments de mesure, etc., il semble pour les auteurs qu’un partage des données brutes permettrait d’obtenir des méta-analyses de meilleurs qualité voire même de refaire les calculs par les relecteurs. Toutes ces données pourraient être mises en ligne avec l’article.

Avis du GERAR.
   Dans un souci d’uniformisation (forme et fond) des articles scientifiques, le GERAR s’intéresse aux recommandations de bonnes pratiques concernant la rédaction d’articles scientifiques liée à la fiabilité et aux études de test re-test. Avant d’écrire un article concernant le site internet EQUATOR rassemble toutes les recommandations. D’autres sites semblables à EQUATOR existent, tels que CONSORT qui lui s’intéresse aux recommandations concernant les essais contrôlés randomisés. 



   Dans cet article, les auteurs explique leur méthode de travail et la manière dont s’est écrit et a évolué leurs recommandations. Ces 9 auteurs ont travaillé selon la « Delphi Method » Méthode Delphes, plutôt intéressant. Une personne = une voix où une voix ne possède pas plus de poids qu’une autre. A mettre en lien avec l’intérêt du travail de groupe et la pluridisciplinarité. Plus de détails ici.

   Ce papier est intéressant car il donne des indications précises sur la construction d’un article scientifique s’intéressant à la fiabilité ou l’accord intra ou inter évaluateur. Ce qui est d’une grande aide dans la rédaction. N’hésitez pas à spécifier que vous avez suivi les recommandations GRRAS dans votre papier : un plus lors de la relecture ? En théorie oui, mais tout dépend bien sûr, du suivi de ces recommandations.

   En aucun cas, le GRRAS est une autorité à part entière. Pour ces auteurs celles-ci posent les bases d’un travail qui doit être continué afin d’améliorer ces recommandations. Les auteurs concluent d’ailleurs “ We believe that this first draft may be improved upon and updated in the future. We appreciate any comments or suggestions by readers and users.” A nous de faire évoluer cette recommandation pour les études de fiabilité ou d’accord.

MV.

Bibliographie:
Kottner J. et al. Guidelines for Reporting Reliability and Agreement Studies (GRRAS) were
Proposed. 2011. International Journal of Nursing Studies 48; 661–671. Accès restreint

Aucun commentaire:

Enregistrer un commentaire

Printfriendly



Related Posts Plugin for WordPress, Blogger...