Chapitre 5 L’évaluation des preuves et de l’information

Après avoir achevé ce chapitre, le lecteur sera en mesure :

    1. Décrire les principes de la médecine fondée sur des données probantes(…) en appliquant les méthodes d’évaluation critique et de la médecine factuelle (Conseil médical 78-2)
    2. Savoir évaluer de façon critique les sources possibles d’information de données de recherche en mettant l’accent sur les caractéristiques des plans d’études (essai clinique randomisé, étude de cohortes, étude cas-témoins, étude transversale) (78-2)
    3. Décrire les principales catégories de recherche, en comparant les approches qualitatives et quantitatives, les plans expérimentaux, et les études par observation
    4. Indiquer les critères d’évaluation de la causalité (78-2)
    5. Aborder les différentes mesures d’association, notamment le risque relatif, le  rapport de cotes (odds ratio),  le risque attribuable, et nombre nécessaire à traiter (78-2);
    6. Décrire la logique qui sous-tend les analyses statistiques (78-2) :
      • l’échantillonnage
      • les mesures de la tendance centrale
      •  les statistiques inférentielles
      •  la signification statistique des différences
    7. Décrire les principales sources d’erreur dans les études (78-2) :
      • le biais
      • le biais d’échantillonnage
      • les erreurs systématiques de mesure
      • l’objectivité du chercheur 
      • la confusion
    8. La hiérarchie des preuves en médecine factuelle :
      •  les revues systématiques
      •  la méta-analyses
      •  la collaboration Cochrane
    9. Savoir appliquer les résultats de recherche à vos patients observés en cabinet;
    10. Décrire les limites de la médecine factuelle.

Faire le lien entre ces connaissances et les objectifs du Conseil médical du Canada, notamment le chapitre 78-2.

À noter : les cases colorées contiennent des informations supplémentaires facultatives ;
cliquez sur la boîte pour l’ouvrir.
Les mots en MAJUSCULES sont définis dans le Glossaire.

Aimants et ménopause

Julie Richard a des inquiétudes au sujet de sa ménopause. Elle souffre de bouffées de chaleur et de fatigue généralisée. Elle reconnaît qu’elle est à un point dans sa vie où les changements sont nombreux. Par exemple, ses risques d’ostéoporose et de cancer sont plus élevés. Elle en a discuté avec sa fille Audrey, qui a fait une recherche sur Internet et a trouvé beaucoup d’information sur l’hormonothérapie, les suppléments de calcium et des produits comme l’huile d’onagre. On disait aussi que l’activité physique était une façon d’améliorer le bien-être. Julie Richard consulte le Dr Rao à cet effet et lui fait part de l’information qu’Audrey a trouvée. En particulier, Julie veut savoir si un aimant aiderait à soulager ses symptômes de ménopause. Elle a obtenu des renseignements à ce sujet sur le Web et montre l’imprimé au Dr Rao. Le site Web contient une foule d’information au sujet de la ménopause et cite des articles évalués par des pairs suggérant que les aimants statiques sont un traitement efficace de la dysménorrhée.

Le Dr Rao consulte Medline et d’autres sources sur Internet pour vérifier ces allégations. Il découvre que l’auteur est propriétaire d’une clinique privée qui se spécialise dans les problèmes liés à la ménopause. Le Dr Rao trouve plusieurs articles portant sur le soulagement de la douleur par les aimants. Dans une revue systématique, il est indiqué que les aimants pourraient soulager légèrement la douleur liée à l’arthrose, mais que rien ne démontre leur efficacité contre d’autres types de douleur. Selon les promoteurs des aimants, leur mécanisme produit soit une interférence directe avec la conduction nerveuse, soit une action sur les petits vaisseaux pour améliorer la circulation sanguine.

L’évaluation de l’information et des preuves

On prétend depuis toujours pouvoir guérir les troubles de santé. Certaines méthodes de guérison se fondent sur la science; on connaît leurs mécanismes d’action et les principes qui les sous-tendent. On sait empiriquement que d’autres améliorent la santé, sans toutefois comprendre entièrement comment elles fonctionnent. D’autres encore n’ont aucun effet bénéfique avéré. Beaucoup n’ont pas fait l’objet d’études rigoureuses. Enfin, certaines n’ont qu’un effet placebo : leur effet bénéfique est associé à la suggestion plutôt qu’à une action chimique directe.

En 2022 presque 1,4 million articles ont documenté les résultats de recherches médicales.1 Dans le but de guider la pratique médicale, divers organismes font un examen régulier des publications et élaborent des directives cliniques fondées sur les preuves actuelles. Cependant, il n’existe pas de lignes directrices pour toutes les affections, de sorte que les cliniciens doivent comprendre les principes de base de l’évaluation critique des articles de recherche médicale. Ce qui devient encore plus importante vu que de nombreux résultats de recherche ne concordent pas. Ces discordances ont de multiples raisons : des méthodologies différentes dans le plan d’étude, la perspective du chercheur, les caractéristiques uniques des sujets de l’étude, les méthodes utilisées pour analyser les résultats… Aucune étude n’est parfaite, mais l’idéal de la pratique de la médecine fondée sur des données probantes exige que les cliniciens fondent leurs décisions sur les meilleures preuves scientifiques. Comme certaines données probantes sont erronées, le clinicien doit être en mesure de juger de la validité de l’information publiée, ce qui constitue le thème de l’évaluation critique de la documentation.

L’évaluation critique

L’évaluation critique consiste à juger de la validité des méthodes et des procédures utilisées pour recueillir les données, à repérer les biais possibles, à évaluer la pertinence de l’analyse, l’exhaustivité du compte rendu et les conclusions tirées, et à vérifier si l’étude est conforme aux codes d’éthique de la recherche. Il existe de nombreuses listes de vérification pouvant guider le processus d’évaluation critique, mais en dernier ressort, les cliniciens doivent utiliser leur jugement pour évaluer la qualité de l’étude et la pertinence des résultats dans leur situation clinique particulière.

Les données de recherche jugées de bonne qualité sont cumulées pour former la base d’une médecine fondée sur des données probantes. Les étapes du cumul des données probantes comprennent les examens systématiques et les méta-analyses, qui seront décrits plus loin. La première étape de l’évaluation critique est l’application du bon sens pour évaluer de manière critique la qualité des données. En français on pourrait présenter cette approche sous l’acronyme HILoRRS : l’honnêteté, l’intégralité, la logique, la réfutabilité, la reproductibilité et la suffisance des données.3

Tableau 5.1 : Normes HILoRRS d’évaluation de la qualité de l’information

Honnêteté Les preuves à l’appui d’une allégation doivent être évaluées avec ouverture d’esprit et sans aveuglement.
Intégralité Les preuves à l’appui d’une allégation doivent être exhaustives – on doit tenir compte de toutes les preuves disponibles, sans faire abstraction des preuves contraires.
Logique Les arguments à l’appui d’une allégation doivent être cohérents sur le plan logique (par exemple, on ne pourrait pas baser un argument pour l’effet biologique des aimants sur la satisfaction des personnes qui les utilisent).
Réfutabilité Pour qu’une conclusion soit fondée sur des preuves (plutôt que sur des croyances), il doit être possible de concevoir des preuves qui prouveraient que l’allégation est fausse (par exemple, il serait possible de démontrer que les aimants ne réduisent pas les symptômes de la ménopause, mais il n’existe aucun moyen logique de prouver que Dieu n’existe pas).
Reproductibilité On doit pouvoir obtenir des résultats semblables dans le cadre d’autres expériences et essais.
Suffisance La preuve présentée à l’appui de toute réclamation doit être adéquate pour établir la véracité de cette réclamation, avec ces stipulations :
• la charge de la preuve de toute réclamation incombe au demandeur;
• les réclamations extraordinaires exigent des preuves extraordinaires, et
• les preuves fondées sur l’autorité ou les témoignages sont inadéquates pour la plupart des réclamations, en particulier celles qui semblent peu susceptibles d’être vraies.

La médecine factuelle

La médecine factuelle est définie comme étant « l’usage systématique dans le traitement des patients des meilleures preuves tirées de recherches cliniques et épidémiologiques publiées, en mettant en balance les risques et les avantages des épreuves diagnostiques et des options thérapeutiques, et en tenant compte des circonstances particulières de chaque patient, y compris le risque de base, les comorbidités et les préférences personnelles. » 4

En pratique, la médecine factuelle est l’intégration de l’expérience clinique aux meilleures preuves cliniques externes disponibles provenant de la recherche systématique. L’approche a été élaborée en grande partie au Canada par le Dr David Sackett et d’autres chercheurs de l’Université McMaster au cours des années 1970, et elle est reconnue aujourd’hui comme un élément fondamental de la pratique médicale.5 Selon Sackett, la médecine factuelle est le processus consistant (1) à trouver de l’information pertinente dans la documentation médicale pour traiter un problème clinique spécifique, (2) l’application de règles simples de la science et du bon sens pour déterminer la validité de l’information, et (3) l’application de cette information à une question clinique formulée de manière précise. On veut ainsi s’assurer que les soins au patient sont fondés sur les preuves des meilleures études disponibles. Sackett fait valoir que « l’art de la médecine » consiste à prendre les résultats de plusieurs sources de preuves et de les interpréter en fonction de patients individuels : cela s’oppose à une médecine axée sur les règles (« cookbook medicine »). Par la suite, l’approche a été appliquée au-delà de la médecine clinique pour proposer, par exemple, une santé publique fondée sur les preuves et une élaboration des politiques fondée sur les preuves.

Médecine factuelle – Modèle en cinq étapes

Voici une séquence qu’un clinicien peut suivre pour prendre une décision fondée sur la médecine factuelle quant à la prise en charge d’un cas clinique complexe :

  • Évaluer : Reconnaître les problèmes du patient et les classer en ordre de priorité.
  • S’interroger : Élaborer des questions cliniques qui facilitent la recherche efficace de données probantes dans la documentation. Celles-ci suivent habituellement un format que nos collègues anglophones ont baptisé PICO et qui s’articule autour du patient, de l’intervention, de la comparaison et du résultat recherché. On posera par exemple la question suivante : « Une femme périménopausée de 48 ans qui porte un bracelet de poignet magnétique aura-t-elle moins de sueurs nocturnes qu’une femme similaire qui ne porte pas un tel aimant ? »
  • Acquérir : Rassembler des preuves de sources dont la qualité est reconnue. Les bibliothécaires sont très utiles à cette étape.
  • Évaluer : Évaluer les preuves en fonction de leur validité, de leur importance et de leur utilité (en particulier, ces données répondent-elles à vos questions?)
  • Appliquer : Appliquer les preuves au cas du patient en tenant compte des préférences et des valeurs de ce dernier de même qu’aux circonstances cliniques.

Vous trouverez de plus amples renseignements sur ce modèle en cinq étapes au journal JAMA et à l’Université d’Alberta (en anglais seulement).

Les types d’erreur dans les études

L’évaluation critique examine la possibilité que des lacunes dans la conception ou l’exécution d’une étude auraient pu produire des résultats trompeurs. Les chercheurs essaient évidemment d’éliminer toute erreur potentielle dans leurs études, mais cela s’avère extrêmement difficile et augmente toujours le budget de l’étude. Chaque étude doit réduire au minimum deux types d’erreur dans sa collecte et interprétation de données : les biais (ou déformations systématiques) et les erreurs aléatoires. En outre, les études doivent tenir compte de la confusion possible, laquelle peut nuire à l’interprétation des relations causales. Ces erreurs sont expliquées en détail dans ce chapitre, mais voici quelques brèves définitions à titre d’introduction.

Les types d’erreur

Erreur : résultat faux ou erroné obtenu dans une étude ou une expérience.1 On peut distinguer les erreurs aléatoires et systématiques dans les études :

Erreur aléatoire : écart par rapport à la réalité qui peut gonfler ou minimiser les estimations découlant d’une mesure ou d’une étude. On suppose généralement que de telles erreurs sont dues au hasard et, s’il s’agit d’un gros échantillon, qu’elles ne déforment pas les résultats globaux de manière considérable. Des statistiques comme l’intervalle de confiance servent à estimer l’ampleur d’erreurs aléatoires (voir « Erreur d’échantillonnage ou au hasard » ci-dessous).
Erreur systématique ou biais : écart systématique de résultats d’étude ou d’inférences par rapport à la réalité; sous-estimation ou surestimation systématique. Ces erreurs peuvent découler de failles dans le plan d’étude, y compris l’échantillonnage (« biais de sélection »), ou dans les méthodes de mesure (« biais d’information »).

Confusion : difficulté, dans l’interprétation des résultats d’une étude, à distinguer lequel de deux processus est à l’origine des effets (voir « Confusion » ci-après).

Ces types d’erreurs peuvent survenir dans n’importe lequel des principaux plans d’étude, qui sont conçus pour répondre à différents questions d’étude.

Évaluer les preuves scientifiques : la recherche qualitative par opposition à quantitative

La médecine factuelle établit un équilibre entre les preuves scientifiques provenant de groupes de personnes et les caractéristiques uniques du patient : le mélange de la science et de l’art de la médecine. De même, les preuves scientifiques peuvent être tirées d’une combinaison de recherches quantitatives et qualitatives. Dans la recherche qualitative on utilise des observations non numériques pour offrir un aperçu détaillé des cas individuels, pour répondre aux questions axées sur le « pourquoi ». Par exemple, « pourquoi ce patient ne suit-il pas son régime médical? » (pour plus de détail, cliquez sur « Anguille sous roche »). Les méthodes quantitatives utilisent des données qui peuvent être comptées ou converties sous forme numérique, et répondent généralement aux questions axées sur le « comment » (p. ex., « quelle est l’efficacité de ce traitement, par rapport à un placébo?  »). Le tableau 5.2 résume les différents objectifs de chaque approche, que la plupart des chercheurs considèrent comme complémentaires, ce qui conduit à une approche « mixte ».

Variables qualitatives ou études qualitatives?

Les études quantitatives portent souvent sur des variables qualitatives. Par exemple, un chercheur qui souhaite connaître la satisfaction des patients à l’égard des services peut poser la question suivante : « Dans quelle mesure êtes-vous satisfait des soins que vous avez reçus? » Ce chercheur peut utiliser un barème qui permet de quantifier grossièrement les réponses, par exemple à l’aide d’une série d’énoncés : très satisfait, satisfait, insatisfait ou très insatisfait. Il peut attribuer à chaque énoncé un score de 1, 2, 3 ou 4, et présenter ses résultats selon le mode ou la médiane. L’étude, même si elle mesure la qualité d’une chose, exprime les résultats en nombres et est ainsi une étude quantitative.

D’autre part, une étude qualitative sur le même sujet pourrait impliquer un groupe de discussion composé de patients auxquels un animateur poserait la même question, tout en permettant aux participants de partager ce qu’ils considèrent comme étant important pour leur satisfaction. L’animateur leur poserait ensuite des questions de suivi pour approfondir leurs idées. Les renseignements obtenus seraient examinés et analysés pour dégager des thèmes et des sous-thèmes communs révélés par les discussions du groupe.

Tableau 5.2 : Comparaison des méthodes de la recherche qualitative et quantitative

Recherche qualitative Recherche quantitative
Décrit des cas de phénomènes spécifiques Identifie les principes généraux qui sous-tendent les phénomènes observés
Génère des hypothèses Vérifie des hypothèses
Est généralement inductive (part d’un cas précis pour arriver à une conclusion générale) Est généralement déductive (part d’une théorie générale pour arriver à une explication précise)
Capte des renseignements étoffés, contextuels et détaillés auprès d’un petit nombre de participants Obtient des estimations numériques de la fréquence, de la gravité et des associations à partir d’un grand nombre de participants
Examine un ensemble d’idées; l’approche d’échantillonnage vise à fournir une couverture représentative des idées ou des concepts Examine un ensemble de personnes; l’échantillonnage permet une couverture représentative des personnes dans la population
Explique « pourquoi? » et « qu’est-ce que cela veut dire? » Explique « quoi? », « combien? » et « dans quelle mesure? »
Exemple de question d’étude : Quelle est l’expérience des personnes traitées pour un cancer du sein? Exemple de question d’étude : Ce traitement du cancer du sein réduit-il la mortalité et améliore-t-il la qualité de vie?

Les nombres ne disent pas tout

Dans le cadre d’études quantitatives, on peut avoir recours aux nombres pour catégoriser les réponses à des questions qualitatives comme « Dans quelle mesure êtes-vous satisfait? » (réponses : 1 = très insatisfait à 4 = très satisfait). Attention : ces nombres sont arbitraires, et on ne peut présumer qu’ils représentent un gradient égal de la satisfaction. Dans le jargon technique, ces nombres sont « ordinaux » (comme les numéros civils des maisons sur une rue), mais le changement de niveau de satisfaction d’un nombre à l’autre n’est pas nécessairement égal (voir ÉCHELLES DE MESURE dans le glossaire). Par conséquent, de telles données doivent être analysées à l’aide de méthodes statistiques non paramétriques – par exemple, à l’aide d’une médiane, plutôt que d’une moyenne. (Voir PARAMÉTRIQUE dans le glossaire)

Par contre, le fait de mesurer la température corporelle représente une mesure « d’intervalle » : le changement de température est égal entre chaque nombre successif sur l’échelle. Les données découlant de telles mesures peuvent être analysées à l’aide de statistiques paramétriques : il est alors légitime de calculer les valeurs moyennes.

La recherche qualitative

La recherche qualitative « emploie des informations non numériques pour explorer les caractéristiques des individus et des groupes et arrive à des résultats qu’il est impossible d’obtenir par des techniques statistiques ou d’autres méthodes quantitatives. Les études de cas cliniques, les études narratives sur le comportement, l’ethnographie, les études des organisations et les études sociales en sont quelques exemples. » 6 Appliquées à la santé publique ou à la santé de la population, les méthodes qualitatives sont précieuses pour analyser les détails du comportement humain. Au-delà de la simple consignation des faits (cette personne s’est-elle fait vacciner contre la grippe?), la recherche qualitative se penche sur la motivation et les récits personnels qui offrent un aperçu du pourquoi.

Les chercheurs qualitatifs se concentrent sur les expériences subjectives des individus et rejettent l’idée positiviste qu’il existe une réalité objective à découvrir. Ils soutiennent que l’expérience humaine peut être interprétée de nombreuses façons, reflétant le point de vue de l’observateur, et que les chercheurs ne peuvent être que partiellement objectifs. Les méthodes qualitatives sont inductives et flexibles, ce qui permet aux interprétations d’émerger des données plutôt que d’une perspective théorique présélectionnée. Tout comme les historiens successifs peuvent réinterpréter les événements historiques, notre compréhension des maladies et des thérapies change avec les nouvelles découvertes.

Tout comme la recherche quantitative, les études qualitatives peuvent être pures ou appliquées, mais en mettant davantage l’accent sur l’application – expliquer une situation particulière. Les méthodes de collecte de données qualitatives peuvent être regroupées en entrevues en profondeur, en observation des participants et en groupes de discussion (voir l’encadré Pour les mordus). Les données peuvent prendre la forme de mots, d’images ou de sons – une fois décrites comme « toute donnée qui n’est pas représentée par des valeurs ordinales ». 7

Catégories d’études qualitatives

Méthode qualitative Type de question Source des données Technique analytique
Phénoménologie  Questions sur le sens ou l’essence des phénomènes ou des expériences
(Qu’entendent les familles chinoises par « harmonie »? En quoi consiste l’expérience scolaire d’un enfant sourd?)
Primaire : enregistrement magnétophonique d’une longue conversation
Secondaire : poésie, peinture, cinéma
Réflexion thématique et phénoménologique;
prise de notes et écriture réfléchie
Ethnographie Questions observationnelles (Comment l’équipe chirurgicale collabore-t-elle en salle d’opération?) et questions descriptives portant sur les valeurs, les croyances et les pratiques d’un groupe culturel.

(Comment les femmes dans cette culture perçoivent-elles la ménopause?)
Primaire : observation des participants; notes d’observation; entrevues structurées ou non structurées
Secondaire : documents, groupes de discussion
Description dense, relecture des notes et codage thématique; narration; analyse de cas; diagramme pour représenter les tendances et les processus
Théorie à base empirique Questions de processus portant sur l’évolution de l’expérience au fil du temps ou sur ses stades ou phases (Comment les résidents en médecine composent-ils avec la fatigue?) ou questions de compréhension (Comment apprennent-ils ces techniques?) Primaire : enregistrement magnétophonique d’entrevues; observations
Secondaire : expérience personnelle
Sensibilité théorique; élaboration de concepts pour le développement de théories; prise de notes thématiques; diagrammes; accent sur la recherche des concepts et des processus fondamentaux

Source : adaptation de Richards et al.8

Juger de la qualité de la recherche qualitative

Pour juger de la recherche qualitative, vous devriez tenir compte de questions telles que :

1. Le projet était-il sous-tendu d’un plan d’étude rigoureux?
Les éléments à considérer sont les compétences et les connaissances du chercheur et l’exhaustivité de l’analyse documentaire. La question de recherche doit aussi être claire et convenir à l’analyse qualitative. Le chercheur doit énoncer dans quelle perspective on a recueilli et analysé les données.

2. L’exécution de l’étude était-elle rigoureuse?
L’échantillon final doit représenter tous les groupes pertinents. Par exemple, une étude de la satisfaction des patients doit représenter tous les types de patients qui se présentent à la clinique : des hommes et des femmes de tous les âges, présentant tous les types d’affections. Dans le cadre d’une recherche qualitative, la taille de l’échantillon n’est pas nécessairement stable. L’échantillonnage peut se poursuivre jusqu’au moment où de nouvelles idées ou de nouveaux concepts ne se présentent plus. C’est ce que l’on appelle la saturation. Les méthodes d’échantillonnage mettent le focus ainsi sur le contenu, plutôt que sur le nombre de personnes étudiées.

Le protocole d’entrevue peut également être modifié. Il n’est pas nécessaire que les questions soient uniformes, mais elles doivent capter les indicateurs verbaux et non verbaux afin que le sujet soit exploré à fond. Pendant le projet, le protocole d’entrevue peut évoluer selon les résultats des entrevues antérieures.

Biais qualitatifs

Bien que souples, les méthodes de collecte des données doivent être systématiques et elles doivent être décrites. L’analyse des mêmes données par plusieurs chercheurs est une façon de cerner les biais d’interprétation possibles; on doit avoir noté comment on s’y est pris pour concilier les différences dans l’interprétation des résultats. Dans certaines études, on demande aux participants de valider l’interprétation. Le lecteur doit chercher les preuves que la recherche a été réalisée de manière éthique et la confidentialité et l’anonymat ont été maintenues.

Les biais sont inhérents à la recherche qualitative. La collecte de données observationnelles, que l’observateur soit ou non à la vue des personnes observées, peut influencer leurs comportements. L’interaction entre les intervieweurs et les interviewés peut également influencer les réponses. De même, les résultats de l’analyse des données peuvent dépendre du savoir et de la perspective de l’analyste. Il s’agit des mêmes problèmes que l’on rencontre dans la recherche quantitative (voir la rubrique sur le biais), mais les méthodes de résolution ne peuvent être les mêmes. La recherche quantitative vise l’uniformité et la normalisation pour réduire les biais. La recherche qualitative, de par sa nature même, réagit au contexte. Elle doit aussi expliquer le contexte ou la perspective du chercheur afin de permettre au lecteur d’évaluer l’influence de celui-ci sur les résultats.

3. Puis-je transférer les résultats de cette étude à mon propre milieu?
Les cliniciens doivent décider si le contexte et les sujets de l’étude ressemblent suffisamment à leur propre contexte et à leurs propres patients pour que les résultats soient applicables. On peut aussi comparer les résultats à ce qui est publié : dans quelle mesure cette étude en corrobore-t-elle d’autres? Si les corroborations sont nombreuses, les résultats de l’étude sont probablement généralisables, et donc transférables à un contexte semblable.

Complémentarité des approches qualitatives et quantitatives

La chercheuse Jill Cockburn a étudié la satisfaction des patientes à l’égard des services de dépistage du cancer du sein en Australie. Elle a utilisé des méthodes qualitatives, y compris des analyses documentaires et des entrevues avec les patients et le personnel, pour déterminer les aspects pertinents de la satisfaction. Elle a ensuite élaboré un questionnaire normalisé pour mesurer la satisfaction avec les services de dépistage; elle a ensuite interviewé un échantillon de patientes et les résultats de ce questionnaire ont été analysés de manière quantitative.9

La recherche quantitative

Les études quantitatives dans la recherche médicale se divisent en deux grandes catégories : les études descriptives qui énumèrent des faits, comme le nombre de personnes atteintes de différents types de cancer, et les études analytiques qui identifient les influences causales, comme si un traitement produit de manière fiable une guérison. La présentation qui suit commence par des études descriptives.

Les études descriptives

Les études descriptives ont pour but de décrire la situation : elles comptent le nombre de personnes atteintes de diabète, ou dans un sondage qui sont satisfaites de leurs soins hospitaliers. Une telle étude utilise des statistiques descriptives pour résumer les résultats – pourcentages, une valeur moyenne ou médiane, et peut-être la fourchette des valeurs ou l’écart-type. Les données d’une étude descriptive peuvent provenir d’un questionnaire, ou de sources telles que les dossiers médicaux électroniques ou les programmes de surveillance, décrivant la personne, le lieu et le moment de l’apparition de la maladie (qui ? où ? quand ?) [voir La surveillance, chapitre 7]. Les études descriptives sont couramment utilisées auprès de petites populations locales, comme les patients de votre cabinet, et sont souvent utilisées pour recueillir de l’information en vue de la planification des services. Les études descriptives se réfèrent généralement à un seul point dans le temps – généralement le présent – et donnent donc une image transversale de la population, bien que des études transversales répétées puissent illustrer les tendances dans le temps, comme l’évolution du nombre de fumeurs dans votre pratique. Lorsqu’une étude recueille de l’information sur plusieurs variables, elle peut décrire les associations entre les variables (p. ex., le diabète est-il plus fréquent chez les hommes ou les femmes et varie-t-il selon le statut tabagique ? Ceci peut être utilisé pour générer des hypothèses, qui peuvent ensuite être testées dans le cadre d’une étude analytique.

La majorité des études analytiques en épidémiologie cherchent à établir des relations causales. Elles comparent généralement différents groupes, p. ex. les personnes exposées à un facteur causal ou à un traitement, et d’autres qui ne le sont pas. Cependant, un défi fondamental est qu’on ne peut jamais établir de relation causale entre un facteur et une maladie de manière définitive; le mieux qu’une étude puisse faire est de montrer que les résultats correspondent à une série de critères permettant de conclure qu’une relation causale est probable.

Les critères d’inférence des causes

En 1965, Austin Bradford Hill a proposé un ensemble de critères pour évaluer la causalité des relations épidémiologiques; il s’est basé en partie sur les postulats de Koch datant du dix-neuvième siècle.  Comme ces critères ont été modifiés à maintes reprises, il en existe plusieurs versions comprenant un nombre différent de critères. Le tableau 5.3 en offre un exemple typique des critères avec commentaire critique sur ses limites.

Les postulats de Koch

Robert Koch (1843–1910), un médecin prussien, a remporté le prix Nobel de physiologie en 1905 pour son travail sur la tuberculose. Un des pères de la microbiologie, il a isolé le Bacillus anthracis, le Mycobacterium tuberculosis (autrefois appelé bacille de Koch) et le Vibrio cholerae. Ses critères (ou postulats) pour déterminer qu’une maladie est causée par un microbe sont que le microbe doit être :

  • présent dans tous les cas examinés de la maladie;
  • susceptible d’être préparé et maintenu en culture pure;
  • capable de produire l’infection originale, même après plusieurs générations en culture;
  • récupérable d’un animal vacciné et cultivable de nouveau.

Ces postulats se fondent sur les critères de causalité élaborés par le philosophe John Stuart Mill en 1843. Bien que les mordus de la microbiologie puissent citer des maladies causées par des organismes qui ne satisfont pas entièrement à tous les critères, les postulats de Koch offrent un fondement rationnel à l’étude de la microbiologie médicale.

Tableau 5.3 : Critères d’inférence d’une relation causale en épidémiologie

Critères Commentaires
1. Relation chronologique : l’exposition à la cause présumée doit être antérieure à l’apparition de la maladie. Ce critère est largement accepté. Par contre, il est difficile de connaître le véritable début de certaines maladies si leur période latente est longue. Serait-il possible que le cancer chez votre patient aurait pu commencer avant son exposition à l’amiante au travail ?
2. Force de l’association : si toutes les personnes atteintes de la maladie ont été exposées à l’agent causal présumé, mais que très peu de personnes en santé dans le groupe de comparaison y ont été exposées, l’association est forte. D’un point de vue quantitatif, plus le RISQUE RELATIF est important, plus il est probable que l’association est causale. Ce critère peut être contesté : la force varie beaucoup en fonction du nombre de facteurs étudiés et de la manière dont ils sont contrôlés dans le cadre de l’étude. Une faible association peut toujours être causale, notamment si elle est modifiée par d’autres facteurs. Par contraste, une forte association peut résulter d’un facteur confusionnel non reconnu. L’association significative entre le rang de naissance et le risque de syndrome de Down en est un exemple : en réalité, le risque découle de l’âge maternel plus avancé au moment de la naissance de sa troisième ou quatrième enfant.
3. Intensité ou durée de l’exposition (ou gradient biologique ou relation dose-réponse) : si les personnes dont l’exposition à l’agent est la plus intense ou la plus longue présentent une fréquence ou une gravité plus importante de la maladie, alors que les personnes dont l’exposition est moindre ne sont pas aussi malades, il est fort probable que l’association est causale. C’est un critère raisonnable s’il est présent, mais qui ne s’applique pas nécessairement si un niveau seuil doit être atteint pour que l’agent se manifeste. Si un faible seuil d’exposition est suffisant pour que l’agent ait un effet, l’absence de réponse plus extrême à une dose plus élevée ne réfute donc pas la causalité.
4. Spécificité de l’association : si l’on découvre un agent ou un facteur de risque associé de façon constante à une seule maladie, il joue fort probablement un rôle causal. Ce critère est faible, et découle des réflexions sur les maladies infectieuses. Le tabagisme et l’obésité sont associés de manière causale à plusieurs maladies; l’absence de spécificité n’amoindrit pas une interprétation causale.
5. Constance des résultats: une association est constante si elle est confirmée par différentes études; elle est encore plus convaincante si ces études concernent différentes populations. C’est un bon critère, mais il peut dissimuler les relations causales qui s’appliquent uniquement à une minorité de personnes. Par exemple, l’hémolyse d’origine médicamenteuse associée au déficit en glucose-6-phosphate déshydrogénase (GPD) peut être difficile à démontrer dans les populations où la prévalence du déficit en GPD est faible.
6. Cohérence ou plausibilité des résultats : existe-t-il une explication biologique (ou comportementale, etc.) à l’association observée? Les preuves découlant d’expériences sur les animaux, d’effets analogues créés par des agents analogues et des informations d’autres systèmes expérimentaux et méthodes d’observation font partie des preuves à considérer. C’est un bon critère s’il existe une théorie, mais il ne faut pas rejeter une cause potentielle en l’absence d’une explication biologique. Le savoir évolue au fil du temps, et de nouvelles théories résultent parfois de résultats inattendus.
7. Cessation de l’exposition : si l’on enlève le facteur causal d’une population, l’incidence de la maladie devrait diminuer. Cela peut être vrai dans une population, mais non chez une personne. La pathologie n’est pas toujours réversible.

L’amiante cause-t-il le cancer du poumon?

Plus le nombre de critères satisfaits est élevé pour un cas particulier, plus on présume que l’association est causale. Par exemple, l’exposition des travailleurs du bâtiment aux fibres d’amiante aurait-elle pu causer le cancer du poumon chez certains d’entre eux?

1. Relation chronologique : Est-il certain que l’exposition à l’amiante date d’avant le cancer (dont le développement peut avoir pris de nombreuses années)?
2. Force de l’association : Comparé aux personnes non-exposées, jusqu’à quel degré les travailleurs exposés à l’amiante présentent-ils les taux plus élevés de cancer?
3. Intensité et durée de l’exposition : Les travailleurs dont les états de service sont les plus longs sont-ils les plus susceptibles d’être malades?
4. Spécificité : Les travailleurs du bâtiment ont-ils uniquement le cancer du poumon?
5. Constance : A-t-on signalé des résultats semblables dans d’autres pays?
6. Cohérence et plausibilité : Biologiquement parlant, l’amiante peut-il causer le cancer du poumon?
7. Cessation de l’exposition : Après l’adoption de lois interdisant l’amiante, les taux de cancer du poumon ont-ils diminué parmi les travailleurs du bâtiment?

En fin de compte, le fait qu’un facteur soit accepté comme la cause un non d’une maladie reste toujours sujette à controverse, surtout lorsqu’il n’est pas possible d’obtenir des preuves expérimentales. Il existe toujours des défenseurs du tabac qui s’appuient sur des arguments basés sur des points techniques pour démontrer la fausseté de la conclusion que le tabagisme cause le cancer et les cardiopathies. Les sections qui suivent décrivent les principaux types de conception de recherche et résument leurs forces et limites.

Les plans de recherche

La recherche quantitative fait appel à divers plans d’étude qui se divisent en deux grandes catégories : les études expérimentales (ou essais expérimentaux) et les études par observation. La figure 5.1 cartographie les distinctions entre ces catégories, à partir du facteur ou de la maladie à l’étude, en haut du diagramme.

Figure 5.1 : Types d’études

Les études expérimentales (ou d‘intervention)

Comme le nom l’indique, dans le cadre de ces études, les participants subissent une intervention quelconque dont on évalue l’impact. Il peut s’agir d’une intervention médicale ou chirurgicale, d’un nouveau médicament ou d’une intervention sur le mode de vie. Comme il s’agit du plan le plus rigoureux d’un point de vue méthodologique, les études expérimentales sont le choix implicite lorsqu’on veut trouver des preuves à l’appui des meilleures pratiques de prise en charge des patients. C’est pourquoi ce thème est abordé en premier.

Le chercheur expérimental exerce un contrôle sur l’intervention, le moment, la dose et l’intensité. Sous sa forme la plus simple, une étude expérimentale évalue l’effet d’un traitement en suivant ces étapes :

  1. Le chercheur énonce officiellement l’hypothèse à tester;
  2. Le chercheur choisit des personnes admissibles au traitement;
  3. L’échantillon est divisé en deux groupes;
  4. Un groupe (le groupe expérimental ou d’intervention) reçoit l’intervention, alors que l’autre (le groupe témoin) ne la reçoit pas;
  5. Les résultats pertinents sont consignés sur une certaine période, puis on compare les résultats des deux groupes.

À la troisième étape, une distinction critique apparaît (voir à la gauche de la figure 5.1) : on peut procéder soit à un essai comparatif aléatoire, soit opter pour un plan non aléatoire. Dans le cadre d’un essai comparatif aléatoire, les personnes sont réparties entre un groupe d’intervention et un groupe témoin de manière entièrement aléatoire, alors que dans le cadre d’une étude non aléatoire, les décisions relatives à l’intervention sont prises autrement. On peut, par exemple, répartir les participants en fonction de l’endroit ou de leur ordre d’entrée dans l’étude. Il existe de nombreux types d’études non aléatoires, mais comme le chercheur n’a pas nécessairement le plein contrôle sur la répartition entre le groupe expérimental et le groupe témoin, ces études sont perçues comme étant inférieures aux plans véritablement aléatoires (voir Pour les mordus). On les appelle souvent des plans quasi expérimentaux.

Les plans quasi expérimentaux

Voici un exemple d’étude quasi expérimentale : traiter des patients hypertensifs dans un hôpital selon un certain protocole, et comparer les résultats à ceux de patients recevant un protocole thérapeutique différent dans un autre hôpital. L’avantage réside dans la simplicité : il n’est pas nécessaire de répartir aléatoirement les deux protocoles thérapeutiques dans chaque hôpital, ce qui simplifie la formation du personnel. Cependant, plusieurs biais pourraient survenir dans une comparaison des deux hôpitaux : les patients pourraient choisir leur hôpital ou leur clinicien (autosélection); l’un des hôpitaux pourrait traiter des cas plus graves que l’autre; d’autres aspects des soins pourraient être différents d’un hôpital à l’autre, et ainsi de suite.

La série chronologique est un autre forme d’étude quasi expérimentale. Elle désigne un plan de recherche à groupe unique où l’on compare une série de mesures réalisées avant et après une intervention, ce qui permet de comparer des tendances pour déterminer l’impact de l’intervention. Par exemple, pour voir si un nouveau manuel de santé publique est utile à l’apprentissage des étudiants, on peut comparer les résultats obtenus à un examen en santé publique par des cohortes successives d’étudiants en médecine, au cours de plusieurs années avant, puis après l’introduction du manuel. L’hypothèse est qu’il y aura un bond significatif dans les scores après l’introduction du nouveau livre. Cette conception est dite quasi-expérimentale parce qu’elle se situe à mi-chemin entre une étude observationnelle et une véritable expérience. On peut considérer ce plan comme étant une expérience si le chercheur contrôle le moment de l’introduction du manuel. Mais d’autres modifications auraient se produire dans le système scolaire qui auraient pu influencer le résultat et non le texte lui-même. Ce plan chronologique a l’avantage d’être réalisable : il serait difficile de répartir aléatoirement les étudiants entre un groupe ayant recours au manuel et un autre n’y ayant pas recours, car les deux groupes pourraient se partager le manuel.

Les possibilités de biais sont si importantes dans les études quasi expérimentales qu’on juge que ces études sont considérablement inférieures aux expériences véritablement aléatoires. Ainsi, leurs résultats sont rarement considérés comme définitifs.

La répartition aléatoire réduit la possibilité d’un biais de répartition aux groupes de traitement ou de contrôle, les rendant comparables; il permet également l’utilisation valide de tests statistiques (qui supposent souvent une répartition aléatoire). Mais l‘avantage principal de la répartition aléatoire des sujets est que les autres facteurs qui pourraient influencer le résultat (p. ex. les facteurs CONFUSIONNELS) seront probablement également présents dans chaque groupe, y compris les facteurs inconnus, comme les caractéristiques génétiques qui influent sur le pronostic. En moyenne, si l’on suppose l’absence d’erreur systématique ou de biais, la seule différence entre deux groupes répartis aléatoirement est l’intervention. Par conséquent, toute différence dans les résultats découle probablement de l’intervention. Plus l’échantillon de l’étude est grand, plus nous pouvons être confiants que d’autres facteurs seront équivalents dans les deux groupes, de sorte que toute différence est de plus en plus due à l’intervention. Mais il s’agit toujours d’une question de probabilités, et c’est pourquoi nous avons besoin de tests de signification statistique. Celles-ci montrent la probabilité que les différences observées entre le groupe expérimental et le groupe témoin soient le fruit du hasard.

Sélection aléatoire et répartition aléatoire

Il faut distinguer entre la sélection aléatoire de sujets à partir d’une base de sondage ou d’une liste et l’attribution aléatoire de sujets à des groupes expérimentaux ou témoins. La sélection aléatoire des sujets est principalement pertinente dans la recherche descriptive et permet de s’assurer que les résultats peuvent être généralisés à l’ensemble de la population, ce qui renforce la validité externe de l’étude (voir la section sur le biais d’échantillonnage).

L’attribution aléatoire aux groupes expérimentaux et témoins permet de s’assurer qu’ils sont équivalents dans tous les domaines, à l’exception de l’intervention expérimentale, de sorte que la comparaison n’est pas confondue par des différences inhérentes entre les groupes, ce qui améliore la validité interne de l’étude. (Voir Pour les mordus – Est-ce vraiment aléatoire? »)

Est-ce vraiment aléatoire?

Pour des raisons pratiques, certains essais utilisent la répartition non aléatoire des patients. Par exemple, en utilisant les numéros d’assurance-maladie des patients, ceux qui ont un numéro impair pourraient être assignés au groupe expérimental et les numéros pairs au groupe témoin. Cela est supérieur à une option où les participants choisissent eux-mêmes le groupe auquel ils se joignent et peut s’approcher de la qualité d’une répartition aléatoire. Toutefois, la méthode d’attribution devrait être soigneusement examinée afin de s’assurer que les numéros ont été attribués de façon vraiment aléatoire. Vérifiez, par exemple, si les hommes obtiennent des nombres impairs et les femmes des nombres pairs, ou si les patients des zones urbaines obtiennent des nombres pairs.

Les essais comparatifs aléatoires

Le plan expérimental le plus commun en recherche médicale est l’essai comparatif aléatoire (ECA, ou RCT en anglais). Un ECA est une véritable expérience, du fait que le chercheur contrôle l’exposition et, dans sa forme la plus simple, répartit les sujets aléatoirement entre le groupe expérimental et le groupe témoin (lequel pourrait ne recevoir aucun traitement, le traitement classique ou un placébo). Le suivi et l’évaluation des deux groupes sont réalisés à l’aide d’une comparaison rigoureuse de leurs taux de morbidité, de mortalité et d’événements indésirables, de leur état fonctionnel de santé et de leur qualité de vie. On a surtout recours aux ECA pour évaluer les thérapies, mais on peut aussi s’en servir pour étudier des mesures de prévention. Le plus souvent, les individus sont répartis au hasard dans les groupes d’étude, mais des personnes peuvent aussi être répartis par groupe, voire des communautés entières. Les ECA sont souvent réalisés dans plusieurs centres, comme c’est le cas des essais cliniques sur les traitements anticancéreux (voir l’encadré).

Figure 5.2 Plan générique d’un essai contrôlé randomisé

Voici les étapes d’un ECA :

  1. Énoncer l’hypothèse de manière quantitative et opérationnelle. Par exemple, en utilisant le format baptisé PICO par nos collègues anglophones : « Il y aura une réduction de 10 % des sueurs nocturnes auto-enregistrées chez les femmes périménopausées qui portent un bracelet de poignet magnétique, comparativement aux femmes du même âge qui ne portent pas d’aimant au poignet. »
  2. Sélectionner les participants. Cette étape comprend le calcul de la taille de l’échantillon requis, l’établissement de critères d’inclusion et d’exclusion, et l’obtention d’un consentement libre et éclairé.
  3. Répartir les participants au hasard aux groupes expérimental et témoin ; cela se fait normalement à l’aide d’une répartition aléatoire générée par ordinateur. Notons qu’il peut y avoir plus d’un groupe d’intervention, par exemple si l’on veut tester différents tailles d’aimants dans l’étude de la ménopause. Le groupe témoin peut recevoir soit le traitement standard (p. ex. thérapie d’estrogène), ou un placébo (p. ex. un bracelet non-magnétique).
  4. Administrer l’intervention. Il vaut mieux que cela soit effectué à l’insu afin que le patient ne sache pas à quel groupe il a été affecté. Idéalement, le chercheur (et certainement l’intervenant qui surveille la réaction du patient) ne doit pas non plus savoir à quel groupe le patient est affecté (il s’agit alors d’une expérience à double insu). Cela aide à éliminer l’influence des attentes possibles du patient et du clinicien à l’égard du traitement, attentes qui pourraient biaiser l’évaluation des résultats. Parfois, on utilise une approche à triple insu dans laquelle ni le patient, ni le clinicien, ni ceux qui analysent et interprètent les données ne savent quel groupe a reçu le traitement (les groupes sont simplement étiquetés A ou B). Cela réduit encore plus les biais possibles.
  5. Examiner les résultats (p. ex. les paramètres physiologiques ou biochimiques, la morbidité, la mortalité, les événements indésirables, l’état de santé fonctionnelle ou la qualité de vie) à un moment déterminé d’avance et comparer ceux du groupe d’intervention et du groupe témoin à l’aide d’analyses statistiques. Cela permet de déterminer si une différence dans les taux observés dans les deux groupes survient plus souvent que si seul le hasard était en cause.

On considère les ECA comme étant les meilleurs plans de recherche, mais ils comportent tout de même des limites. En effet, ils sont conçus pour étudier l’efficacité d’un traitement dans des conditions expérimentales bien contrôlées. Il est donc possible que les preuves ne reflètent pas l’efficacité du traitement sur le terrain. Par EFFICACITÉ POTENTIELLE (« efficacy » en anglais), on entend l’impact potentiel d’un traitement dans les conditions optimales typiques d’un milieu de recherche contrôlé. Par EFFICACITÉ RÉELLE, on entend son impact dans les conditions normales de pratique. Par exemple, dans des conditions expérimentales, un médicament peut être efficace parce que les patients savent qu’ils participent à un projet de recherche et qu’ils sont supervisés. Cependant, dans un contexte réel, le médicament pourrait ne pas être efficace, car sans supervision, les patients pourraient ne pas prendre tout le médicament à la bonne dose. Il se peut également qu’une intervention efficace ne soit pas suffisamment EFFICIENTE pour être mise en pratique. L’auto-examen des seins est une méthode efficace de dépistage précoce du cancer du sein, mais uniquement dans des conditions expérimentales où des infirmières qualifiées effectuent un suivi constant auprès des femmes. Le coût d’un tel niveau d’intervention est trop élevé pour être appliqué de manière générale.

De plus, on réalise souvent des essais auprès de populations très ciblées (p. ex. des fumeurs de sexe masculin âgés de 50 à 74 ans qui présentent une angine de poitrine instable sans comorbidité et qui acceptent de participer à une étude de recherche). Cela peut réduire la généralisabilité des résultats aux patients typiques souffrant d’angine de poitrine. L’attrition peut aussi être un problème si les participants d’un groupe ou l’autre abandonnent l’étude avant la fin. En dernier lieu, les essais d’intervention, bien qu’ils soient conçus pour détecter les différences dans les résultats connus et souhaités, peuvent être de trop petite taille pour détecter des effets inconnus antérieurement ou rares.

L’essai à effectif unique est une adaptation de l’ECA qui peut s’avérer particulièrement utile pour tester l’application d’un traitement chez un patient unique de manière à exclure la plupart des sources de biais.

Les essais à effectif unique

Un essai à effectif unique est un essai clinique qui porte sur un seul patient. Il peut être efficace dans l’évaluation d’un traitement chez un patient en particulier. Le patient reçoit soit le traitement actif, soit un agent témoin (un placébo), attribué aléatoirement et administré à l’insu. Les résultats sont consignés après un délai approprié, puis on entame une période d’élimination pendant laquelle le patient ne reçoit pas le médicament afin d’en éliminer toute trace. Le patient reçoit ensuite l’autre traitement (placébo ou actif), et les résultats sont évalués. On peut répéter le cycle afin d’établir des estimations stables des résultats. L’avantage principal est que le résultat de l’étude s’applique spécifiquement à ce patient et permet une calibration précise pour optimiser la dose thérapeutique. Les résultats ne peuvent être généralisés; ils ne sont pertinents que pour ce patient, et évidemment l’effet du traitement doit être réversible.

L’essai à effectif unique peur également s’appliquer à un groupe de personnes. Comme chaque patient représente son propre sujet témoin, ces études peuvent produire des résultats très valides étant donné que presque toutes les sources de biais sont éliminées.

L’éthique des ECA

Des questions éthiques particulières (voir ÉTHIQUE dans le glossaire) se posent dans la conduite de toutes les expériences médicales. Une tension peut surgir entre deux principes de base : les patients ont le droit de recevoir un traitement efficace (principe de bienfaisance), mais il est contraire à l’éthique d’adopter un nouveau traitement sans procéder à des tests rigoureux pour prouver l’efficacité (pour garantir la non-malfaisance). Par conséquent, s’il y a des preuves partielles qu’un traitement est supérieur, il peut être contraire à l’éthique de le prouver dans un essai randomisé parce que cela impliquerait de le refuser aux patients du groupe témoin. Par conséquent, un ECA ne peut être appliqué éthiquement que lorsqu’il existe une réelle incertitude quant à la supériorité du traitement expérimental ; c’est ce qu’on appelle l’équilibre. Il est également contraire à l’éthique de mener des essais qui n’offrent qu’une valeur sociale marginale (p. ex., des études qui profitent davantage aux publications du chercheur qu’à la santé des patients, ou des études qui font également office de projets de marketing). Évidemment il est contraire à l’éthique de poursuivre un essai si le traitement se montre clairement efficace (ou clairement dangereux). On établit donc à l’avance des règles précisant les conditions dans lesquelles il est permis d’interrompre une étude (voir « L’interruption précoce des essais »). Compte tenu de ces principes éthiques, de nombreux traitements établis ne feront probablement jamais l’objet d’un essai comparatif :

  • l’appendicectomie pour l’appendicite;
  • l’insuline pour le diabète;
  • l’anesthésie pour les chirurgies;
  • la vaccination pour la variole;
  • l’immobilisation pour les os fracturés;
  • le parachute pour sauter d’un avion, comme l’a noté le British Medical Journal avec humour.10

L’interruption précoce des essais

Le principe éthique de la bienfaisance exige que les patients bénéficient d’un nouveau traitement dès qu’il s’avère efficace, mais le principe de non-malfaisance implique que cette preuve doit être définitive. Par conséquent, les études sont conçues pour inclure la taille minimale de l’échantillon requise pour la preuve définitive. La taille de l’échantillon est calculée avant le début de l’étude à partir d’une estimation des avantages relatifs probables des traitements d’intervention et de contrôle, mais il ne s’agit que d’une estimation et peut être erroné.

De temps en temps, les premiers résultats peuvent sembler montrer un avantage pour le groupe expérimental ou témoin, mais en se basant sur de petits nombres, ces résultats préliminaires peuvent être dus au hasard. Les chercheurs peuvent donc être confrontés à un choix entre arrêter un essai avant que le nombre de participants soit suffisamment important pour démontrer définitivement la supériorité d’un plan d’action, ou poursuivre l’essai même si, à leur connaissance, un plan d’action semble supérieur à l’autre. Cette décision devient particulièrement difficile à prendre lorsque le traitement expérimental semble nuisible par rapport au traitement conventionnel. Une autre complication est que le fait d’entreprendre des analyses précoces des données implique de lever l’insu des enquêteurs, ce qui peut conduire à biaiser leurs conclusions futures. En général, un comité de surveillance des données utilise des méthodes qui permettent une surveillance continue des résultats, mais ne les communique pas avec les chercheurs jusqu’à ce que, dès que des différences cliniquement significatives se produisent, l’essai puisse être arrêté.

Les phases des études d’intervention

Une fois qu’un nouveau traitement pharmaceutique est au point, il est testé en plusieurs phases successives avant que son utilisation par le public ne soit approuvée par les organismes de réglementation. Les essais aléatoires sont l’une des étapes de cette longue séquence, laquelle commence par des études en laboratoire sur des modèles animaux, puis sur des humains :

Phase I : Le nouveau médicament ou traitement est mis à l’essai pour la première fois dans un petit groupe de personnes afin d’en déterminer la posologie sécuritaire et les effets secondaires possibles.
Phase II : Le médicament ou traitement est administré à un groupe plus nombreux, à la dose recommandée, pour déterminer son efficacité dans des conditions contrôlées et pour évaluer son innocuité. Il ne s’agit généralement pas d’une étude aléatoire.
Phase III : Le médicament ou traitement est mis à l’essai dans des groupes de grande taille afin d’en confirmer l’efficacité, d’en surveiller les effets secondaires, de le comparer aux traitements couramment utilisés et de recueillir des renseignements en vue de son utilisation sécuritaire. Les études de phase III comprennent normalement une série d’essais randomisés. À la fin de cette phase, il est possible que l’utilisation publique du médicament soit approuvée. L’approbation peut limiter l’utilisation du médicament, par exemple à des maladies spécifiques ou à certains groupes d’âge.
Phase IV : Après la mise sur le marché du traitement, on continue de recueillir de l’information pour décrire son efficacité sur différentes populations, mais surtout pour déceler les effets secondaires ou les effets indésirables possibles. Il ne s’agit pas d’un ECA, mais d’une surveillance post-commercialisation. L’information provient de plusieurs sources, comme les rapports des médecins (et des patients) sur les effets secondaires ou les données sur les résultats, comme les réadmissions à l’hôpital obtenues à partir de systèmes d’information informatisés. Un grand nombre peut être nécessaire pour détecter des effets secondaires rares ou à évolution lente.

Les études analytiques par observation

Dans une étude analytique par observation, le chercheur observe ce qui arrive aux personnes dans des conditions d’exposition choisies par la personne elle-même (comme l’exercice ou l’alimentation) ou qui échappent à leur contrôle (comme la plupart des déterminants sociaux de la santé). Il y a souvent un groupe témoin de personnes qui n’ont pas été exposées. La distinction clé avec une étude expérimentale est que le chercheur peut choisir les populations et les expositions à étudier, mais ne les influence pas. Comme il n’y a pas d’attribution aléatoire des expositions, le problème majeur dans l’inférence de causalité est que les groupes exposés et non exposés peuvent différer sur d’autres facteurs clés qui peuvent eux-mêmes être de véritables causes du résultat, plutôt que les caractéristiques à l’étude. Ces facteurs sont connus sous le nom de facteurs de confusion.

La distinction critique entre une étude purement descriptive et une étude analytique est que cette dernière est conçue pour tester une hypothèse, généralement dans le but d’identifier une relation de cause à effet. Lorsqu’une variable de résultat, telle qu’une maladie cardiaque, est étudiée en relation avec une variable d’exposition telle que le poids corporel, l’étude fait plus que compter : elle teste une hypothèse prédisant une association entre les deux. L’intérêt n’est plus purement local, comme dans le cas d’une étude descriptive, mais pour en tirer une conclusion plus générale qui s’appliquera à une population plus large. Par conséquent, la représentativité de l’échantillon de l’étude est d’une importance cruciale, introduisant le concept de validité externe ou de généralisabilité des résultats de l’échantillon. Pour décrire le niveau de confiance avec lequel nous pouvons tirer des conclusions générales à partir d’un échantillon, nous utilisons des statistiques d’inférence (voir la section sur les erreurs fortuites dans l’échantillonnage, ci-dessous).

Les études d’observation analytiques varient en termes de procédures d’échantillonnage utilisées pour recueillir des données, et peuvent être de trois types : études transversales, études de cohortes ou études cas-témoins (voir la figure 5.1).

Les études analytiques transversales

Les études transversales utilisent une seule référence temporelle pour les données recueillies (p. ex. les personnes qui ont consulté un médecin au cours des deux dernières semaines). L’une des études transversales les plus courantes est l’enquête analytique, une extension de la conception de l’enquête descriptive. La différence est que l’analyse enregistre les associations entre les variables afin de tester formellement une hypothèse, plutôt que de simplement rapporter la fréquence de leur occurrence. Par  exemple, dans un sondage nationale, un chercheur vise à tester des hypothèses concernant l’association entre les sensations de stress et l’utilisation des services médicaux. Le chercheur peut demander aux personnes si elles ont éprouvé du stress au cours de la dernière année, puis si elles ont consulté un médecin au cours des deux dernières semaines. Supposons que les résultats sont les suivants :

Tableau 5.4 : Stress et visites chez le médecin : calcul de l’association entre deux variables

Consulté un médecin au cours
des deux dernières semaines?
Oui Non Total
Éprouvé du stress au cours de la dernière année? Oui 1 442   3 209   4 651
Non 2 633 11 223 13 856
Total 4 075 14 432 18 507

Notons que ce résultat peut être interprété de deux façons :

  1. Parmi les personnes ayant éprouvé du stress au cours de la dernière année, 31 % (1 442/4 651) ont consulté un médecin au cours des deux dernières semaines, contre seulement 19 % (2 633/13 856) des personnes n’ayant pas éprouvé de stress. Ou,
  2. Parmi les personnes ayant consulté leur médecin au cours des deux dernières semaines, 35 % (1 442/4 075) ont éprouvé du stress au cours de la dernière année, contre 22 % (3 209/14 432) des personnes n’ayant pas consulté.

Ces deux approches conviennent. Le chercheur est libre de décider comment les résultats seront présentés; le plan d’étude permet les deux types d’analyse. La seule chose que l’on peut conclure est qu’il existe une association entre les deux variables. On peut supposer que le stress prédispose les gens à consulter leur médecin, mais se pourrait-il que la perspective d’une visite chez le médecin engendre du stress, ou qu’autre chose (facteur de confusion tel que la peur d’une maladie sous-jacente) soit à la fois une source de stress et une raison de consulter? Cette étude fournit peu de preuves à l’appui d’une relation de cause à effet –  simplement une association apparente entre le stress et la visite chez le médecin. La principale faiblesse des études transversales est qu’elles ne peuvent pas montrer la séquence temporelle : le facteur (stress) est-il antérieur au résultat (visite chez le médecin)? (voir critères de causalité au tableau 5.3).

Les études descriptives et analytiques portent habituellement sur des échantillons d’individus, mais peuvent également étudier les groupes, p. ex. une comparaison entre villes. Empruntant leurs données des sources gouvernementales, ces études sont faciles à mener. Voir l’encadré  « Études écologiques ».

Les études écologiques

Les études écologiques mesurent les variables au niveau de populations entières (pays, provinces) plutôt qu’au niveau individuel. Il s’agit du plan approprié pour étudier l’effet d’une variable qui agit sur l’ensemble de la population, comme le climat, un ralentissement économique ou une pénurie de médecins. Comme les enquêtes, ces études peuvent être descriptives ou analytiques. Elles ont l’avantage de pouvoir souvent utiliser des données déjà disponibles, comme les statistiques gouvernementales. Les études écologiques peuvent servir à générer des hypothèses qui peuvent être ensuite testées au niveau individuel. Par exemple, l’hypothèse selon laquelle les lipides dans l’alimentation sont un facteur de risque pour le cancer du sein vient d’une étude ayant démontré que les pays où la consommation de lipides par habitant était élevée présentaient une incidence plus élevée de cancer du sein.

Cependant, il y a une limite logique à tirer des conclusions d’études écologiques pour des cas individuels. En effet, comme le résultat écologique se fonde sur des moyennes de groupe, il n’indique pas nécessairement que les personnes qui consomment beaucoup de lipides sont celles qui sont les plus susceptibles de développer un cancer; il est impossible de le déterminer par une étude écologique. Cette difficulté de tirer des conclusions au niveau de personnes à partir de données écologiques se nomme « sophisme écologique ». Pour tirer des conclusions définitives au sujet du lien entre la consommation de lipides et le risque de cancer du sein, les deux facteurs doivent être étudiés chez les mêmes personnes. Néanmoins, on a souvent recours aux études écologiques comme première étape, afin de déterminer si une étude auprès de personnes, plus coûteuse, en vaudrait la peine.

Les études de cohortes

Une cohorte est un groupe de personnes faisant partie d’un échantillon quantifiable qui partagent une certaine caractéristique et auprès desquelles on peut effectuer un suivi sur une période déterminée : par exemple, les membres d’une cohorte de naissance ont tous la même année de naissance (voir Pour les mordus, « Cohorte »). Dans le domaine de la santé, les études de cohortes portent souvent sur des facteurs causaux; la caractéristique d’intérêt est habituellement un type d’exposition qui, selon l’hypothèse à tester, semble augmenter la probabilité d’un résultat clinique. Typiquement, une étude de cohorte porte d’abord sur un échantillon de personnes n’ayant pas la maladie d’intérêt; elle recueille des renseignements sur l’exposition au facteur à l’étude, et effectue un suivi auprès de personnes exposées et non exposées sur une certaine période (figure 5.3). Pour cette raison, les études de cohortes sont également appelées études longitudinales ou de suivi. Le nombre de nouveaux cas (l’incidence) de la maladie est consigné et comparé entre les groupes d’exposition. L’hypothèse à tester est généralement que plus de maladies apparaîtront dans le groupe exposé (indiqué par les tailles relatives des rectangles à droite de la figure.

Figure 5.3 : Schéma d’une étude de cohorte

L’étymologie latine du mot « cohorte »

Cohorte : du latin cohors, signifiant « un enclos ». Le sens du terme a été élargi à un corps d’infanterie de l’armée romaine, privilégiant la notion d’un groupe clos ou d’une escorte. Pensez à une cohorte de l’infanterie romaine qui s’approche; certains hommes portent une nouvelle armure métallique, d’autres sont protégés par un vieil habit de toile et de cuir. Des bandits tirent des flèches sur la troupe; le général Évidentius demande à un scribe de documenter le taux de mortalité et son fidèle analyste, Épidémiologicus, compare ces résultats à l’aide de simples calculs arithmétiques (voir le tableau 5.5).

Dans les études de cohortes simples, les résultats peuvent être présentés dans un tableau « 2 fois 2 » (deux rangées et deux colonnes, sans compter la colonne des totaux).

Tableau 5.5 : Modèle type de tableau 2 x 2 établissant un lien entre une exposition et un résultat

Présence d’un résultat
(p. ex. une maladie)
Absence d’un résultat
(p. ex. pas malade)
Total
Présence d’une exposition (ou facteur de risque) a b a+b
Absence d’une exposition (ou facteur de risque) c d c+d

L’incidence (le risque) de maladie dans le groupe exposé est calculée à l’aide de la formule a/(a + b). De même, le risque des personnes non exposées est égal à c/(c + d). On peut comparer ces risques pour obtenir un rapport de risque (souvent appelé RISQUE RELATIF ou RR) : [a/(a + b) divisé par c/(c + d)]. Ce statistique donne une indication de la force de l’association entre l’exposition et le résultat : dans quelle mesure la maladie est-elle plus probable chez les personnes exposées ? Un risque relatif de 1,0 indique que la probabilité de contracter la maladie est la même chez les personnes exposées et non exposées : il n’existe aucune association entre l’exposition et la maladie. Un risque relatif supérieur à 1,0 implique qu’il est plus probable qu’une personne ayant été exposée au facteur devienne malade, comparativement à une personne non exposée. Un risque relatif inférieur à 1,0 implique un effet protecteur (p. ex., un risque réduit de COVID-19 chez des personnes immunisées).

Le principal avantage des études de cohortes est que l’exposition est consignée avant les résultats; le critère causal d’une séquence temporelle entre l’exposition et le résultat peut être clairement établi si les participants n’étaient pas atteints de la maladie au début de l’étude. En outre, comme on prévoit la manière de consigner les expositions et les résultats dès le début de la période d’étude, les données peuvent être consignées de manière standardisée. Il est à noter que les essais randomisés sont une version expérimentale d’une étude de cohorte dans laquelle l’expérimentateur attribue au hasard l’exposition à des sujets expérimentaux ou témoins.

La définition des groupes d’exposition

Imaginez une étude de cohorte conçue pour tester l’hypothèse que l’exposition aux vapeurs de soudage cause des maladies des voies respiratoires. On pourrait choisir l’échantillon en fonction d’un indicateur brut d’exposition, par exemple considérer la profession comme un substitut (on suppose ainsi que les soudeurs sont exposés et que les autres travailleurs ne le sont pas). On a souvent recours à cette approche en épidémiologie professionnelle et militaire. Une autre solution, plus précise, serait de quantifier les niveaux d’exposition (p. ex., selon l’histoire de travail de la personne); cela exige plus d’information, mais permet d’estimer la réponse à la dose — un des critères pour inférer une cause (voir le tableau 5.3).

On peut pousser la quantification encore plus loin, dans une étude de cohorte, non pas en suivant un groupe non exposé, mais en choisissant un échantillon de personnes dont l’exposition est assez variée pour permettre des comparaisons entre tous les niveaux d’exposition, ou pour établir un modèle mathématique de l’exposition. Les études de cohortes portant sur l’alimentation, l’activité physique ou l’usage du tabac ont souvent recours à cette approche, puisant des renseignements dans un questionnaire initial. Les études de cohortes communautaires comme l’étude coronarienne de Framingham utilisent cette approche. (Voir documents supplémentaires : L’étude de Framingham). Les études de cohortes offrent un moyen puissant d’évaluer les influences causales, mais elles peuvent prendre beaucoup de temps à compléter et donc être coûteuses. Une alternative moins coûteuse est le plan d’étude cas-témoin.

L’étude coronarienne de Framingham

Depuis 1948, la ville de Framingham, au Massachusetts, participe à une étude de cohorte sur les facteurs de risque liés aux coronaropathies. L’étude a recueilli des données sur deux générations subséquentes des familles impliquées initialement. Elle a produit des estimations quantitatives de l’impact des facteurs de risque liés aux maladies cardiaques, y compris le niveau d’activité physique, l’usage de la cigarette, la tension artérielle et le cholestérol sanguin. On trouve de plus amples renseignements sur les études de Framingham sur le site www.framinghamheartstudy.org (en anglais).

Les études cas-témoins

Les études cas-témoins comparent un groupe de patients présentant un résultat particulier (p. ex. des cas de cancer pancréatique confirmés par un pathologiste) à un groupe semblable par ailleurs, mais n’ayant pas la maladie (les témoins). Comme le montre la figure 5.4, les antécédents d’exposition (p. ex. la consommation d’alcool) avant l’apparition de la maladie sont ensuite comparés entre les groupes. Le nom du plan d’étude sert de rappel que les groupes à comparer sont définis en fonction du résultat d’intérêt : sa présence (chez les cas) ou son absence (chez les témoins). L’hypothèse à vérifier est que l’exposition soit plus fréquente chez les cas que chez les témoins, comme l’indique la taille relative des cercles à gauche de la figure.

Figure 5.4 : Schéma d’un plan d’étude cas-témoin

Remarquez qu’une étude cas-témoin ne permet pas de calculer l’incidence ou le risque d’une maladie, étant donné qu’elle commence avec un nombre prédéterminé de personnes atteintes de la maladie et un nombre prédéterminé de personnes qui n’en sont pas atteintes. Il n’est donc pas possible de calculer un rapport de risque. Mais ne désespérez-vous pas :  les renseignements permettent de calculer la probabilité qu’une personne ait été exposée à la maladie — le rapport a:c dans le tableau 2 x 2 (tableau 5.6). On peut la comparer à la probabilité qu’un témoin ait été exposé — le rapport b:d. Le résultat de l’étude cas-témoin est ensuite exprimé comme étant le rapport de ces deux probabilités, ou RAPPORT DE COTES (RC) : a/c divisé par b/d. Afin de simplifier le calcul, on a habituellement recours à la formule algébrique ad/bc.

Tableau 5.6 : Tableau générique 2 x 2 pour calculer le rapport de cotes

Présence d’un résultat
(ou d’une maladie)
Absence d’un résultat
(ou d’une maladie)
Présence d’une exposition (ou d’un facteur de risque) a b
Absence d’une exposition (ou d’un facteur de risque) c d

Le RC calculé à l’aide d’une étude cas-témoin peut s’approcher du risque relatif, mais uniquement lorsque la maladie est rare (disons jusqu’à environ 5 % de la population, comme c’est le cas pour de nombreux états chroniques — voir l’encadré « Probabilités et cotes »). L’interprétation d’un RC est comparable à celle d’un RR. Comme pour le risque relatif, un RC de 1,0 implique qu’il n’y a aucune association entre l’exposition et la maladie. Une valeur supérieure à 1,0 implique qu’il est plus probable que les personnes malades aient été exposées comparativement aux témoins. Une valeur inférieure à 1,0 implique que le facteur est protecteur. Cela peut survenir, par exemple, lorsqu’une étude cas-témoin montre qu’une alimentation à faible teneur en lipides offre une protection contre les coronaropathies.

Principale différence entre une étude de cohorte et une étude cas-témoin

Dans une étude de cohorte, les groupes de participants sont classés en fonction de leur état d’exposition (selon qu’ils présentent ou non le facteur de risque).

Dans une étude cas-témoins, les différents groupes sont sélectionnés en fonction de leurs résultats cliniques (selon qu’ils ont ou non la maladie).

Prospective ou rétrospective?

Ces termes sont souvent mal compris, avec raison.

Les études de cohortes définissent les groupes d’étude en fonction de leur niveau d’exposition, puis effectuent un suivi auprès de ces personnes pour vérifier leur état de santé au bout d’un certain temps, même plusieurs années. Il s’agirait d’une étude de cohorte prospective qui peut prendre beaucoup de temps à achever. Par contre, il serait plus efficace de consulter des relevés d’emploi pour choisir des personnes qui ont travaillé comme soudeurs il y a 30 ans, et de comparer leur état de santé actuel en fonction de leur niveau antérieur d’exposition. On pourrait appeler cela une étude de cohorte rétrospective, mais on préfère l’expression « étude de cohorte historique ». Le terme rétrospective porte à confusion étant donné qu’il désignait auparavant une étude cas-témoin. La plupart des autorités ont abandonné le terme.

Probabilités, cotes et vraisemblances

Les probabilités et les cotes expriment la même information de différentes façons. Les probabilités visent l’avenir et expriment la proportion de personnes avec une certaine caractéristique (p. ex., être exposé à un facteur causal) qui développeront une maladie. Les cotes vont plus loin et expriment le rapport de deux probabilités : la probabilité qu’un cas ait été exposé, divisée par la probabilité de ne pas être exposé. D’après le tableau 5.6, ce serait a/(a+c) ÷ c/(a+c), ce qui se simplifie à a/c. Le rapport de cotes va encore plus loin en comparant les cotes de chaque colonne du tableau, ou a/c ÷ b/d. Les cotes nous sont familières lorsque nous comparons des groupes séparés par exemple le ratio hommes à femmes dans votre classe, ou dans le sport : les chances de gagner pourraient être de 4 à 1, soit 80 %.

Le risque relatif, calculé dans le tableau 5.5, exigeait que l’échantillon forme une seule cohorte et que tous ceux qui ont été exposés soient classés comme cas ou non (et de même pour les non exposés). Ceci est nécessaire pour que des proportions telles que a/(a+b) puissent être calculées. Dans une étude cas-témoin, cependant, la proportion de cas et de témoins était préétablie, de sorte qu’une proportion telle que a/(a+b) dans le tableau 5.6 ne fournit aucune nouvelle information. Cependant, nous pouvons utiliser les cotes et faire le calcul verticalement dans le tableau 5.6, chez les cas et chez les contrôles, et comparer le rapport a/c à b/d.

On a noté que le rapport de cotes ne se rapproche du risque relatif que lorsque la maladie est rare. Ceci peut être illustré comme suit. Si le nombre de cas (a dans le tableau) est faible et le nombre de non-cas est important, alors une proportion telle que a/(a+b) sera pratiquement égale à a/b. L’ampleur de l’erreur dépend de l’importance du risque relatif, mais à mesure que la maladie devient plus fréquente (p. ex. plus de 5 %), le RC a tendance à exagérer le RR pour les risques > 1 et à sous-estimer le RR lorsque le risque est < 1.

Les probabilités regardent vers l’avenir et tiennent compte de l’éventail des résultats qui peuvent survenir ; les vraisemblances (likelihoods, en anglais) regardent en arrière et considèrent la plausibilité d’une conclusion (par exemple, un diagnostic), compte tenu des preuves (les résultats des tests de laboratoire). Dans un tirage au sort, les chances sont de 50:50 pour chaque résultat et montrent le rapport des résultats possibles. La vraisemblance est la probabilité d’un résultat étant donné une pièce équitable (ici, 50%).

Les mesures du risque absolu : risque attribuable et nombre nécessaire pour traiter

Le RR et le RC indiquent dans quelle mesure le risque de contracter une maladie augmente en fonction de l’exposition à un facteur causal, en termes relatifs. Les deux statistiques offrent une réponse à un fumeur qui vous demande « Comparativement à mon frère qui n’a jamais fumé de cigarette, dans quelle mesure suis-je plus susceptible de contracter la maladie? ». La réponse prend la forme suivante : « Il est deux fois plus probable que vous contractiez la maladie » ou « Vos probabilités de contracter la maladie sont plus élevées de 10 %. » La réponse attendue par le patient, cependant, a souvent trait au risque absolu, lequel fait référence à l’incidence d’une maladie et répond à la question « Quelle est ma probabilité d’être atteint de la maladie (dans la prochaine année, dans les dix prochaines années, au cours de ma vie)? » La réponse est une proportion absolue, comme 1 pour 10, ou 1 pour 100. Lors d’un entretien avec un patient, il est important de garder à l’esprit que si la maladie est rare, citer un RR de 2 ou 3 peut sembler assez inquiétant même si le risque absolu est petit. Si le risque absolu est d’un pour un million, une augmentation relative de 100 % ne représente que deux pour un million.

La plupart des maladies ont des causes multiples, il est donc pratique d’avoir un moyen d’exprimer le risque dû à une cause particulière. Cela introduit le concept de risque attribuable, qui indique le nombre de cas d’une maladie parmi les personnes exposées qui peuvent être attribués à cette exposition :

Risque attribuable = Incidence dans le groupe exposé − Incidence dans le groupe non exposé

Cela nous indique combien de cas supplémentaires de la maladie ont été causés par cette exposition, en termes absolus : un cas par million de personnes dans l’exemple ci-dessus. S’il s’agit d’un facteur qui protège contre la maladie, comme une vaccination, cela nous indique combien de cas on peut prévenir.

La notion de risque attribuable est parfois exprimée en termes relatifs : la proportion de l’incidence parmi les personnes exposées, ce qui donne la fraction attribuable du risque chez les sujets exposés, FARe:

FARe = [Incidence (sujets exposés) – Incidence (sujets non exposés)] / Incidence (sujets exposés)

Cette statistique peut s’avérer utile quand on donne des conseils à un patient exposé : « Non seulement vous présentez un risque élevé de cancer du poumon, mais 89 % de votre risque est attribuable à votre usage du tabac. Cesser de fumer pourrait vous être très bénéfique. »

Dans l’élaboration des politiques de santé, nous pouvons également appliquer la notion de risque attribuable à la description de l’impact des facteurs de risque sur l’ensemble de la population. Cela donne lieu à deux mesures : le risque attribuable dans la population (RAP) et la fraction attribuable dans la population (FAP). Ces statistiques évaluent l’impact d’un facteur causal en substituant l’incidence dans l’ensemble de la population à l’incidence chez les sujets exposés (voir Pour les mordus).

Le risque attribuable dans la population

Lorsqu’il est question de l’impact des programmes préventifs, le risque attribuable dans la population (RAP) indique le nombre de cas que l’on éviterait en éliminant un facteur de risque :

Incidence (population) – Incidence (sujets non exposés)

Par rapport à la formule de risque attribuable présentée ci-dessus, l’incidence de la population intègre la proportion de la population qui est exposée au facteur. Un facteur causal peut être fortement associé à la maladie mais, s’il est rare, il n’entraînera pas de nombreux cas, de sorte que le risque attribuable peut être élevé mais le RAP reste faible. Malheureusement, on n’utilise que rarement cette statistique malgré son utilité évidente pour l’établissement de priorités dans les politiques de santé. Quand elle s’exprime en tant que proportion de l’incidence dans l’ensemble de la population elle produit la fraction attribuable dans la population ou FAP (une notion que l’on nomme de plusieurs autres façons) :

[Incidence (population) – Incidence (sujets non exposés)] / Incidence (population)

Cette statistique, qui s’avère très pertinente dans le domaine de la santé publique, indique la proportion de tous les cas d’une maladie qui sont attribuables à un certain facteur de risque. À titre d’exemple, elle a permis d’estimer que 40 000 Canadiens succombent chaque année aux effets du tabagisme. Avec un peu d’algèbre, on peut voir que cette proportion dépend de la prévalence du facteur de risque et de la force de son association (risque relatif) avec la maladie. Voici la formule :

FAP = Pe (RRe-1) / [1 + Pe (RRe-1)],

où Pe est la prévalence de l’exposition (p. ex. la proportion de personnes obèses) et RRe est le risque relatif de la maladie lié à cette exposition.

La fraction évitée dans la population est la proportion du fardeau hypothétique total de la maladie qui a été prévenue grâce à l’exposition au facteur protecteur, comme un programme d’immunisation. Voici la formule :

Pe(1-RR).

Une application utile du risque attribuable est le concept du « nombre nécessaire pour traiter » (NNT). Ce nombre résume l’efficacité d’un traitement ou d’une mesure préventive pour obtenir un résultat souhaité. On sait qu’aucun traitement n’est infaillible. Par conséquent, le nombre nécessaire pour traiter est le nombre de patients atteints d’un trouble qui doivent suivre un schéma thérapeutique pendant une période donnée pour qu’une seule personne obtienne le résultat souhaité. Le NNT est calculé en tant que valeur réciproque de l’amélioration absolue qui résulte de la thérapie. Ainsi, si un médicament guérit 35 % des personnes qui le prennent, alors que 20 % guérissent spontanément, l’amélioration absolue est de 15 %. La valeur réciproque = 1 ÷ 0,15 = 7. Donc, en moyenne, il faudrait traiter sept personnes pour en guérir une (au cours de la période donnée). Le NNT peut aussi servir à décrire l’utilité d’une mesure préventive pour prévenir un résultat indésirable. De même, il peut servir à calculer le danger d’un traitement, comme les réactions indésirables à un médicament. Le cas échéant, on utilise l’expression « nombre nécessaire pour nuire. » Ce qui indique le nombre moyen de personnes traitées avec le médicament qui générerait un événement indésirable.

Calcul des mesures de risque

Dans le cadre d’une étude de cohorte portant sur l’efficacité d’une immunisation, on a examiné si les personnes immunisées et non immunisées sont tombées malades ou non. Voici les résultats :

Malades En santé
Immunisées 20 (a) 100 (b)
Non immunisées 50 (c) 30 (d)
Total = 200

Comment pouvons-nous calculer le risque? Il y a plusieurs façons de faire :

Formule Résultat
Risque relatif (RR)
(Notez que l’immunisation protège, donc le résultat
est < 1)
a/(a + b) /
c/(c + d)
0,167 / 0,625 = 0,267
Rapport de cotes (RC)
(Veuillez noter que, comme il s’agit d’une étude de cohorte, on n’utiliserait généralement pas le rapport de cotes)
ad/bc 0,12
Risque attribuable (RA)
(Un risque attribuable négatif indique une protection)
(a/(a + b)) –  (c/(c + d)) 0,167 – 0,625 = -0,458
Réduction du risque absolu (RRA)
(Égale au risque attribuable, avec le symbole inverse)
(c/(c + d)) –  (a/(a + b)) 0,625 – 0,167 = 0,458
Nombre nécessaire pour traiter (NNT) 1/RRA 1/0,458 = 2,18

Les statistiques d’inférence

L’édifice de la recherche médicale vise à appliquer l’information tirée d’un échantillon particulier  à une population plus large, par exemple pour estimer le poids moyen des bébés à la naissance. Cette valeur dans la population s’appelle un « paramètre ». L’incertitude liée à l’estimation d’un paramètre global à partir d’un échantillon restreint nous amène à une discussion des statistiques d’inférence ou inférentielles.

L’échantillonnage

Pour fournir une estimation précise d’un paramètre, un échantillon devrait évidemment être représentatif de la population ; un échantillon aléatoire offre une bonne approche. Mais parce que les gens varient, des échantillons différents prélevés au hasard dans la même population sont susceptibles de donner des résultats légèrement différents en raison d’une variation purement fortuite dans le choix des personnes sélectionnées. L’échantillonnage aléatoire d’une population garantit seulement qu’en moyenne, les résultats des échantillons successifs refléteront le véritable paramètre de population, mais les résultats d’un échantillon particulier peuvent différer de ceux de la population d’origine, parfois substantiellement, et surtout si l’échantillon est petite. Ces différences involontaires sont connus sous le nom d’ « erreur d’échantillonnage », de « variation aléatoire » ou d’ « erreur aléatoire ». Mais nous pouvons au moins estimer l’exactitude de l’extrapolation ou de la généralisation d’un échantillon à l’ensemble de la population en utilisant des statistiques inférentielles comme les valeurs p et les intervalles de confiance (voir matériel supplémentaire : Les statistiques).

Les paramètres

Dans la terminologie des statisticiens, un paramètre est la valeur réelle dans la population; c’est cette valeur que l’on tente d’estimer à l’aide d’un échantillon. Si vous connaissez le paramètre dans la population, vous pouvez lui comparer aux valeurs obtenues par votre patient : Le poids de naissance de cet enfant est-il normal pour cette population?

Les paramètres dans la population sont habituellement représentés par des lettres grecques, et les estimations de ces paramètres à partir d’échantillons sont représentées par des lettres latines :

la moyenne dans la population = μ (on prononce « mu »)
son estimation dans l’échantillon = x avec ligne ‾ dessus (« x barre »)
l’écart-type dans la population = σ (on prononce « sigma »)
son estimation dans l’échantillon = s.

Les statistiques

Par STATISTIQUE, on entend le champ des mathématiques, fondé sur la théorie des probabilités, qui traite de l’analyse des données numériques tirées d’échantillons. Lorsqu’il est question de recherche biologique, on parle de biostatistique. Les statistiques inférentielles estiment l’étendue probable des erreurs qui peuvent survenir lors de l’application des conclusions d’un petit échantillon d’étude à l’ensemble de la population de laquelle l’échantillon a été tiré. Le présent guide ne donne qu’un aperçu très général des méthodes statistiques les plus pertinentes à la médecine fondée sur des données probantes; il faut consulter un manuel de statistique pour de plus amples renseignements.

Estimer un paramètre

L’intervalle de confiance (ou IC) est une statistique qui sert à indiquer le degré probable d’erreur dans l’estimation d’un paramètre d’après un échantillon dans une étude descriptive. Une phrase comme « une tension artérielle systolique moyenne de 120 mm Hg [I.C. 95%=114 à 126 mm Hg] » signifie que la tension artérielle systolique moyenne dans l’échantillon était de 120 mm Hg et que, selon la taille de l’échantillon et la variabilité des lectures de la TA, il y a une probabilité de 95 % que la moyenne réelle dans l’ensemble de la population se situe entre 114 et 126 mm Hg. On peut représenter l’intervalle de confiance à l’aide d’un graphique à ligne ou à barre d’erreur, comme dans la figure 5.8.

Comme les valeurs moyennes, les rapports de cotes et les risques relatifs sont aussi exprimés par des intervalles de confiance. L’intervalle de confiance d’un rapport de cotes indique si l’association est statistiquement significative ou non, ainsi que la plage probable des valeurs. Si l’intervalle de confiance des rapports de cotes ou des risques relatifs inclut 1,0, on présume qu’il n’existe aucune différence statistiquement significative entre les deux groupes, étant donné qu’un rapport de cotes ou un risque relatif de 1,0 indique qu’il n’existe aucune différence entre les deux groupes. Par exemple, un risque relatif de 1,4 (I.C. 95% = 0,8 à 2,1) signifie que l’on peut être sûr à 95 % que le risque relatif réel se situe entre 0,8 et 2,1. De plus, comme cette plage comprend la valeur de 1,0, il est bien possible qu’il n’existe aucune association dans la population (voir les encadrés sur la signification statistique).

Passons maintenant à une discussion de notre confiance qu’un contraste entre groupes dans une étude analytique de groupes soit « réelle ».

Signification statistique des différences

Imaginons un ECA qui compare les tensions artérielles moyennes de patients hypertensifs répartis au hasard soit dans un groupe de traitement (ou d’intervention), soit dans un groupe témoin. L’hypothèse d’étude prédit une différence en PA entre les deux groupes, attribuable à l’intervention. Cependant, en tant que médecin vous ne vous intéressez pas tant à cet échantillon particulier de l’étude, mais à savoir si les résultats s’appliqueraient également ailleurs, par exemple aux patients de votre cabinet. Évidemment, si les résultats de l’étude constituent une anomalie fortuite dans cet échantillon particulier, vous n’allez pas baser votre pratique sur ces résultats ! Nous devons alors choisir entre deux possibilités : soutenir l’hypothèse de l’étude selon laquelle il existe une vraie différence et l’hypothèse alternative, « l’hypothèse nulle », selon laquelle qu’il n’y a pas de différence de tension artérielle entre ces groupes dans la population plus large et que le résultat de l’étude était une anomalie.

Les méthodes de la biostatistique nous aident à évaluer ces deux options. Intuitivement, plus l’échantillon est grand et plus la différence de pression artérielle moyenne est large, plus nous sommes confiants que la différence serait vraie si l’étude ait été répétée sur d’autres échantillons, p. ex. sur vos patients. En premier lieu, le chercheur doit choisir un seuil de probabilité qui sera utilisé pour différencier un résultat (ici la contraste en pression artérielle moyenne) qui peut être attribué au hasard dans cet échantillon particulier, versus une différence considérée comme « statistiquement significative ». Le seuil choisi est habituellement de 5 %, ou p < 0,05 – arbitraire mais couramment utilisé. Un p < 0,05 signifie que la probabilité préalable d’obtenir un contraste de TA aussi grand que le résultat observé (ou même supérieur) est inférieure à 5 % si, en réalité, l’hypothèse nulle est vraie (c’est-à-dire que ce traitement n’aura aucun impact réel sur la tension artérielle dans la population d’intérêt). Lorsqu’une analyse statistique montre une valeur p inférieure à 0,05, la différence serait considérée comme statistiquement significative, et le chercheur soutiendrait généralement l’hypothèse de l’étude selon laquelle il existe une véritable différence, toutefois en attendant des études ultérieures pour confirmer ce résultat (voir ici les cases Anguille sous roche et Limitations statistiques significatives). La formule choisie pour calculer une valeur p dépend des éléments de la conception de l’étude; des conseils se trouvent dans un manuel de biostatistique, ou peut-être auprès de votre collègue titulaire d’une maîtrise en épidémiologie.

Les limites des statistiques inférentielles

Un point crucial à reconnaître est que les statistiques inférentielles suggèrent le niveau de confiance dans la généralisation d’un échantillon aléatoire à la population dans laquelle il a été tiré. Mais pour la médecine factuelle, nous souhaitons souvent généraliser à d’autres populations, même d’autres pays, comme l’illustre la figure 5.5. L’évaluation de la validité de cette extrapolation plus éloignée nécessite des informations supplémentaires sur la comparabilité des populations et la nature du sujet à l’étude. Cette information ne peut être fournie par les statistiques, mais elle constitue un élément essentiel de la médecine factuelle et introduit le problème des biais. Pour juger de l’applicabilité des résultats de l’étude à vos patients, vous devez être conscient de la comparabilité de vos propres patients à l’échantillon de l’étude. Ceci introduit la notion de VALIDITÉ EXTERNE et de biais d’échantillonnage. Les sections suivantes présentent les compétences en matière d’évaluation critique pour détecter les biais dans l’information.

Figure 5.5 : Extrapolation de l’échantillon à la population cible

La signification statistique et la signification clinique sont différentes

A répéter : le fait qu’une différence (p. ex, entre les patients recevant un traitement antihypertenseur et d’autres recevant un placébo) soit statistiquement significative vous indique seulement que la fréquence à laquelle des études de ce type montreraient une différence au moins aussi importante est inférieure à un certain seuil (généralement 5 %) si la vérité est qu’il n’y a pas de différence entre les traitements dans la population (c’est-à-dire si l’hypothèse nulle est vraie). La signification statistique ne vous renseigne pas directement sur l’ampleur de la différence, ce qui est important pour prendre votre décision clinique. Par exemple, une baisse de 2 mm Hg dans un essai portant sur un traitement contre la TA pourrait être statistiquement significative, mais pourrait être trop petit pour avoir une importance sur le plan clinique.

Afin qu’un résultat d’une étude modifie votre pratique, le résultat doit être à la fois statistiquement et cliniquement significatif. Ce raisonnement ressemble à celui qui sous-tend la statistique du nombre nécessaire pour traiter, laquelle permet aussi de quantifier l’amélioration découlant du traitement, et non seulement de déterminer la signification statistique.

Limites de la signification statistique

Si un test statistique ne montre aucune différence significative entre deux groupes, cela veut dire soit qu’il n’existe réellement pas de différence dans la population, soit qu’il pourrait y avoir une différence, mais que l’échantillon n’a pas permis de la révéler. Ceci peut se produire si l’échantillon était trop petit pour qu’on puisse démontrer une différence avec confiance (l’échantillon n’avait pas la « puissance statistique » nécessaire pour détecter la véritable différence). On sait intuitivement que plus l’échantillon est grand, plus l’estimation sera précise. Si votre étude porte sur l’ensemble de la population, les intervalles de confiance ou la signification statistique ne sont pas nécessaires, étant donné que vous avez mesuré le véritable paramètre.

Plus la différence réelle est petite (comme la différence entre les patients recevant un nouveau médicament contre la TA et ceux recevant un traitement classique), plus l’échantillon doit être grand pour la détecter avec confiance. Inversement, si un échantillon doit être de très grande taille pour démontrer une différence statistiquement significative, la différence doit être très petite. Il y a donc tout lieu de vous demander si une différence aussi petite est cliniquement importante.

Les sources d’erreur dans les études

Le biais

Le biais, ou l’écart systématique de résultats ou d’inférences par rapport à la réalité, représente un danger dans tous les plans d’étude.4 Les chercheurs doivent prendre les précautions nécessaires pour éviter (ou du moins contrôler) les nombreux types de biais que l’on a identifiés.11 Ces biais se divisent en deux grandes catégories : les biais d’échantillonnage (dus à la manière dont on a sélectionné les participants à l’étude) et les biais de mesure (dus aux erreurs dans la mesure des expositions ou des résultats).

Le biais d’échantillonnage (ou de sélection)

L’échantillonnage aléatoire vise à sélectionner un échantillon véritablement représentatif d’une population; à strictement parler, toute personne dans la population doit avoir une chance égale (et non nulle) d’être sélectionnée. C’est particulièrement important dans les études descriptives telles que les études de prévalence. Cela peut avoir moins d’importance dans les études analytiques qui visent à dégager des vérités scientifiques abstraites.12 Par exemple, un chercheur qui souhaite étudier l’association entre l’arthrite et l’obésité pourrait avoir de bonnes raisons de choisir son échantillon à partir d’une population présentant un risque anormalement élevé d’obésité afin d’obtenir une quantité suffisante de personnes obèses et très obèses pour son étude.

Pour des raisons pratiques, très peu d’études peuvent choisir un échantillon aléatoire à partir de l’ensemble de la population cible; le chercheur définit habituellement un « cadre d’échantillonnage » qu’il considère comme étant semblable à l’ensemble de la population. Il choisit ensuite un échantillon à partir de ce cadre. Ainsi, un chercheur pourrait choisir son échantillon à partir de patients se présentant à l’Hôpital général de Weenigo pour tirer des inférences au sujet de tous les patients fréquentant les autres hôpitaux comparables. Faisant référence à la figure 5.5, un biais d’échantillonnage peut donc survenir à deux étapes : d’abord lors du choix du cadre d’échantillonnage, étant donné que les patients qui se présentent à l’Hôpital général ne sont pas nécessairement les mêmes que ceux qui se présentent aux autres hôpitaux locaux; et ensuite, lors du choix de la méthode d’échantillonnage des patients se présentant à l’hôpital.

Un biais d’échantillonnage survient surtout lorsque l’échantillon n’est pas choisi aléatoirement (de sorte que tous les membres de la population n’ont pas la même probabilité d’être sélectionnés). Par exemple, une annonce dans un journal « Nous sommes à la recherche de participants pour une étude sur la tension artérielle » pourrait attirer des personnes à la retraite ou sans emploi qui ont le temps de se porter bénévoles, surtout celles avec un intérêt particulier dans le sujet (p. ex. elles pourraient avoir des antécédents familiaux d’hypertension). Si ces caractéristiques sont, à leur tour, associées à la tension artérielle, l’estimation de la TA moyenne dans la population d’après cet échantillon sera biaisée. Notons que la plupart des recherches sont menées dans des hôpitaux d’enseignement, mais les patients qui fréquentent ces centres varient systématiquement des patients atteints de la même maladie qui se présentent dans des hôpitaux ruraux. On les a souvent aiguillés vers des centres de soins tertiaires parce que leur maladie a tendance à être plus grave, qu’ils ont davantage de comorbidités et que, souvent, le traitement classique n’a pas été efficace dans leur cas. Si les échantillons des études en milieux de soins tertiaires donnent des résultats différents de ceux observés dans l’ensemble de la population atteinte d’une maladie, les résultats reflètent un biais spécifique appelé biais d’aiguillage.

Une étude des aimants

Le Dr Rao remarque que l’étude sur l’utilité d’un aimant magnétique pour traiter les symptômes de la ménopause a recruté son échantillon en publiant une annonce où l’on offrait aux femmes de faire gratuitement l’essai de l’aimant. Il craint que les femmes qui ont répondu à une telle annonce aient été prédisposées à croire en l’efficacité de l’aimant, et qu’il soit possible que cette croyance ait été établie par l’annonce elle-même. Il se peut que ces femmes ne représentent pas nécessairement toutes les femmes qui souffrent de symptômes de la ménopause de sorte qu’on ne pourrait pas tirer de conclusions générales de cette étude.

Un sondage électoral biaisé

Pendant les élections présidentielles américaines de 1948, un sondage de la firme Gallup avait prédit que le candidat républicain Dewey allait l’emporter sur le candidat démocrate Truman, par une marge de plus de 10 points de pourcentage. En fait, c’est Truman qui a remporté l’élection par 4,4 %. Une des raisons de cette mauvaise prédiction est que le sondage avait été réalisé par téléphone. À l’époque, les propriétaires de téléphones étaient peu nombreux. Les gens riches étaient plus susceptibles à la fois d’avoir un téléphone et de voter pour le parti républicain. Ainsi, le sondage était probablement biaisé en faveur des partisans républicains. C’est l’exemple d’un biais d’échantillonnage où la sélection était basée sur une variable confusionnelle (la richesse) qui a entraîné une conclusion trompeuse (voir la section sur la Confusion).

Le biais de non-réponse

Même si la méthode d’échantillonnage n’est pas biaisée, on ne peut prendre pour acquis que toutes les personnes sélectionnées participeront à l’étude. Si certains types de personnes ont choisi de ne pas participer, cette non-réponse pourrait biaiser les résultats. Une façon de déceler un éventuel biais de non-réponse est de comparer les caractéristiques des participants, comme leur âge, leur sexe et leur lieu de résidence, avec celles des personnes qui ont choisi de ne pas participer. Notons cependant que même si ces caractéristiques sont pareilles, un biais lié à d’autres caractéristiques, non consignées, est toujours possible. Il est extrêmement difficile d’ajuster les estimations pour la non-réponse, car même si vous savez quel groupe est sous-représenté, ceux qui ont refusé de répondre sont probablement différents de ceux qui l’ont fait, et vous ne saurez pas en quoi leurs réponses seraient différentes.

Le biais d’information : les erreurs systématiques de mesure

L’erreur de mesure désigne les écarts entre les valeurs consignées à l’aide d’une mesure et les valeurs réelles chez les participants de l’étude. Comme pour les erreurs d’échantillonnage, les erreurs de mesure peuvent être aléatoires ou systématiques. Le biais de désirabilité sociale désigne les erreurs systématiques dans la réponse qui semblent rendre le répondant plus acceptable sur le plan social. Par exemple, la plupart des gens disent être plus actifs physiquement que la moyenne, ce qui est illogique. Les hommes ont tendance à exagérer leur taille et à sous-estimer leur poids.13

D’autres biais découlent de problèmes dans le plan du questionnaire : par exemple, si on interroge les gens en février au sujet de leur activité physique, cela peut biaiser l’estimation de leur niveau annuel d’activité, étant donné que beaucoup de personnes sont moins actives durant les périodes de grandes chaleurs ou de grands froids. Le biais de rappel survient souvent dans les sondages, notamment dans les études cas-témoins. La mémoire des gens est peu fiable. Par exemple, selon des sondages par questionnaire portant sur la période écoulée depuis la dernière mammographie, beaucoup plus de femmes auraient subi une mammographie au cours des deux dernières années que ce que révèlent les dossiers de facturation des mammographies.

Plus grand, mais tout aussi biaisé

L’augmentation de la taille de l’échantillon peut réduire les erreurs aléatoires de mesure et d’échantillonnage, mais n’aura aucun effet sur les erreurs systématiques; les résultats seront toujours biaisés, peu importe le nombre de participants. Une étude biaisée de grande taille peut être plus trompeuse qu’une étude de petite taille!

Figure 5.6 Erreurs d'étude aléatoires et systématiques
Figure 5.6 Erreurs d’étude aléatoires et systématiques

Dans la figure 5.6, le + indique le paramètre inconnu que nous essayons d’estimer; chaque point rouge représente l’estimation du paramètre d’après un échantillon (ou également d’une mesure). Les deux sections dans la partie supérieure de la figure illustrent la présence d’une erreur systématique; les estimations de l’échantillon sont hors cible ou biaisées. En présence d’une erreur systématique, augmenter la taille de l’échantillon ou utiliser un plus grand nombre de mesures ne rendra pas l’étude plus vraie, mais pourrait donner l’impression que les résultats sont plus précis en réduisant les intervalles de confiance. Dans la partie inférieure de la figure, où il y a peu d’erreurs systématiques, augmenter la taille de l’échantillon ou le nombre d’échantillons réduira l’incertitude de l’estimation.

Les quatre configurations de la figure 5.6 peuvent aussi représenter la validité et la fiabilité des tests et des mesures, comme nous le verrons dans le sixième chapitre. Pour ce faire, remplacez « erreur systématique » par « VALIDITÉ » et « erreur aléatoire » par « FIABILITÉ ».

Le biais d’information : l’objectivité du chercheur

Le Dr Rao évalue la preuve

Lorsque le Dr Rao lit dans un rapport d’étude qu’il existe une relation entre une exposition et un résultat, il veut être raisonnablement certain que ce résultat est « vrai ». En consultant des revues dont le processus d’évaluation par les pairs est rigoureux le Dr Rao peut avoir confiance en leurs résultats sur le plan technique. Mais il doit tout de même tenter de trouver d’autres explications avant de accepter les résultats comme étant vrais. C’est pourquoi il s’est renseigné sur l’auteur de l’article sur les aimants et la ménopause. L’auteur était-il commerçant en produits médicaux, peut-être vendeur d’aimants?

Qu’il s’agisse de textes imprimés ou de renseignements trouvés sur Internet, il est important d’en savoir le plus possible au sujet de leur source, d’en vérifier la crédibilité et de déceler les éventuels conflits d’intérêt. Il est plus probable que les conclusions d’essais publiés par des personnes qui ont un intérêt financier dans le produit à l’étude soient favorables au produit. Il est moins probable que les conclusions de chercheurs sans intérêt financier soient trompeuses. La Food and Drug Agency et la Federal Trade Commission des États-Unis proposent de poser les questions suivantes pour évaluer les sources d’information :

  1. Qui a commandé l’étude?
  2. Pourquoi publie-t-on cette information?
  3. D’où provient l’information du site Web?
  4. Y a-t-il des preuves à l’appui de cette information?
  5. Qui est responsable de l’information?
  6. De quand date l’information?

Cette section n’offre qu’un bref aperçu des nombreux types possibles de biais d’étude. Plusieurs auteurs ont écrit beaucoup plus longuement sur le sujet, comme on peut le constater dans la rubrique Pour les mordus.

Les nombreux types de biais

Toutes sortes de biais peuvent influencer les résultats de recherche. Les épidémiologistes sont fascinés par le biais (peut-être par souci de prouver qu’ils sont impartiaux ?); en 1979, David Sackett a publié un inventaire de plus d’une centaine de biais pouvant survenir à différentes étapes d’un projet de recherche. Les listes suivantes représentent les principaux en-têtes de l’inventaire de Sackett.11

Analyse documentaire
– Sélection non représentative d’articles à citer

Plan d’étude
– Biais de sélection
– Biais de cadre d’échantillonnage
– Biais d’échantillonnage non aléatoire
– Biais de non-couverture
– Biais de non-comparabilité

Exécution de l’étude :
Collecte de données
– Biais lié à l’instrument de mesure
– Biais lié à la source de données
– Biais lié aux sujets
– Biais de rappel
– Biais de traitement des données
Analyse
– Biais de confusion
– Biais de stratégie d’analyse
– Biais d’analyse post-hoc

Interprétation biaisée des résultats
– Actualiser les résultats qui ne correspondent pas à l’hypothèse du chercheur.

Publication
– Non-publication des résultats négatifs.

Les véritables mordus peuvent consulter l’article original et examiner la littérature ultérieure pour compléter l’inventaire. Pour les autres, il suffit de se rappeler qu’une erreur systématique peut se glisser à toute étape d’un projet de recherche. Les rapports de recherche doivent être relus avec un œil critique; le lecteur doit se demander ce qui a pu se passer à chaque étape et déterminer comment cela a pu influencer les résultats.

La confusion

Selon une étude publiée en 1960, le syndrome de Down serait plus courant chez les quatrièmes de famille et les enfants suivants.14 Il n’y avait aucun signe de biais d’échantillonnage ou de mesure dans cette étude, et le résultat était statistiquement significatif. Auriez-vous cru au résultat? La réponse peut être « oui » si l’on s’en tient à la présence d’une association, mais doit être « non » si l’on présume une relation causale. Autrement dit, le rang de naissance peut être un marqueur du risque, mais non un facteur de risque (ou causal).

Figure 5.7 : Illustration de la confusion
Figure 5.7 : Illustration de la confusion

La confusion survient lorsqu’une troisième variable (ou une quatrième, cinquième, etc.) dans un réseau de causes est associée à l’exposition et au résultat à l’étude (voir la figure 5.7). Si l’on ne tient pas compte de cette troisième variable dans l’étude, les conclusions portant sur la relation entre les deux premières variables peuvent être mal interprétées. Dans l’exemple du syndrome de Down, l’âge de la mère est un facteur confusionnel, car le quatrième enfant et les suivants naissent souvent de mères plus âgées, et que l’âge maternel est en soi un facteur de risque pour le syndrome de Down. Dans la plupart des articles scientifiques, le premier tableau compare les groupes d’étude (p. ex. les mères de nourrissons trisomiques et les mères sans enfant trisomique) en fonction de nombreuses variables qui pourraient influer sur le résultat, comme l’âge maternel moyen à la naissance de l’enfant. Cela permet au lecteur de déterminer si l’une de ces variables est associée au résultat et pourrait potentiellement être un facteur confusionnel dont il faut tenir compte lors de l’analyse.

Confusion quant aux hormones

Avant 1990, de nombreuses études par observation ont conclu que les femmes postménopausées qui prenaient un traitement substitutif hormonal étaient moins susceptibles de développer des problèmes cardiovasculaires que celles qui ne prenaient pas ce traitement. On a donc recommandé que toutes les femmes postménopausées prennent un traitement substitutif hormonal. Cependant, un essai aléatoire sur la santé des femmes (Women’s Health Initiative) a montré tout le contraire : en réalité, le traitement substitutif hormonal était associé à une augmentation de la maladie cardiovasculaire. Les recommandations sur ce traitement ont dès lors été modifiées.

Il semble que le statut social ait été un facteur de confusion dans les études par observation : il était plus probable que les femmes de statut social (ou de niveau d’éducation) supérieur prennent un traitement substitutif hormonal et qu’en raison de leur statut social, elles présentent moins de maladies cardiaques.15

Faire face à la confusion

On peut réduire la confusion lors de la conception ou de l’analyse de l’étude, ou les deux.

Dans le cadre de plans expérimentaux, la répartition aléatoire entre les groupes d’intervention et témoin est la façon la plus élégante d’éviter la confusion. En effet, la répartition aléatoire fait en sorte que tous les groupes d’étude présentent les mêmes caractéristiques – surtout si la taille des groupes est importante. Néanmoins, tous les facteurs qui pourraient brouiller les résultats doivent être mesurés et comparés dans chaque groupe au début de l’étude. Cette étape doit figurer dans le rapport afin de permettre au lecteur de déterminer si, malgré la répartition aléatoire, des variables confusionnelles potentielles se retrouvent davantage dans un groupe que dans l’autre.

En plus de la répartition aléatoire, l’étude peut se limiter, par exemple, à un sexe ou à un intervalle d’âge restreint. Cela réduit l’effet confusionnel des facteurs utilisés pour limiter l’étude, mais cela limite aussi la généralisabilité de l’étude, étant donné que ses résultats ne pourront s’appliquer qu’à cette population restreinte. L’appariement est une autre stratégie de conception : il s’agit de la sélection délibérée des sujets pour que le niveau de variables confusionnelles soit égal dans les groupes à comparer. Par exemple, si l’on soupçonne que le sexe, l’âge et l’usage du tabac peuvent porter à confusion dans une étude de cohorte, le chercheur consigne le niveau de ces caractéristiques dans le groupe exposé, puis sélectionne les sujets du groupe témoin de manière à refléter un niveau de facteurs semblable.

À l’étape de l’analyse de l’étude, on peut avoir recours à la stratification pour évaluer la confusion. On examine l’association entre l’exposition et le résultat au sein des strates influencées par la variable confusionnelle potentielle, comme l’âge. Les rapports publiés font souvent référence à une analyse de Mantel-Haenszel, laquelle représente une moyenne pondérée des risques relatifs dans les diverses strates. Si des différences sont observées entre les estimations propres à une strate et l’estimation brute (non ajustée), il y a possibilité de confusion. Les techniques de modélisation multivariée, comme la régression logistique, pour ajuster une estimation ponctuelle en fonction des effets de variables confusionnelles sont une autre stratégie d’analyse. Le concept à l’origine de la modélisation multivariée ressemble à celui de la normalisation (voir le chapitre 6), une technique utilisée pour s’ajuster aux différentes compositions démographiques des populations comparées.

Attention : les biais de sélection et de mesure ne peuvent pas être corrigés à l’étape de l’analyse. Ici, seule une sélection minutieuse de l’échantillon et l’utilisation de procédures de mesure normalisées peuvent minimiser ces biais.

La hiérarchie des preuves

Certains plans fournissent des preuves plus fiables que d’autres, et en 1979 le Groupe d’étude canadien sur l’examen médical périodique a avancé l’idée d’une hiérarchie des preuves, un sous-produit de son travail pour formuler des recommandations sur les interventions de dépistage et de prévention. Cette hiérarchie sous-entend que les cliniciens doivent évaluer la crédibilité des preuves en fonction du type d’étude auquel on a eu recours. La hiérarchie a été modifiée au fil des ans; voici une version générique.16

  I Preuves provenant de revues systématiques ou de méta-analyses;
II Preuve provenant d’un essai contrôlé bien conçu;
III Preuves provenant d’études de cohortes bien conçues, réalisées de préférence dans plus d’un centre ou groupe de recherche;
IV Preuves provenant d’études cas-témoins bien conçues, réalisées de préférence dans plus d’un centre ou groupe de recherche;
V Preuves provenant de multiples études en séries chronologiques, avec ou sans l’intervention. Les résultats marquants découlant d’expériences non contrôlées (p. ex. la première utilisation de la pénicilline dans les années 1940) font aussi partie de cette catégorie;
VI Opinions d’autorités respectées fondées sur l’expérience clinique, des études descriptives, des rapports de comités d’experts, de conférences consensuelles, etc.

Le système GRADE

Afin d’élargir la base de l’examen de la qualité des études, le système GRADE a été proposé pour ceux qui examinent les données probantes dans la préparation des lignes directrices cliniques, p. ex. sur l’efficacité d’une intervention. Il prend en compte quatre axes : la conception d’une étude, la qualité de l’exécution de l’étude, la cohérence entre les études, et le caractère « direct » ou la comparabilité des échantillons étudiés avec les patients auxquels ils seront appliqués. Ces jugements sont combinés pour former quatre catégories : Élevée (il est peu probable que d’autres recherches modifient l’estimation de l’effet); Modérée (d’autres recherches sont susceptibles de modifier notre confiance dans l’estimation actuelle de l’effet et peuvent modifier l’estimation elle-même); Faible (d’autres preuves sont susceptibles de modifier l’estimation); Très faible (une estimation de l’effet est très incertaine).17

Les revues systématiques

Une source commune de biais dans le résumé de la documentation est l’omission de certaines études. Il peut s’agir d’études entreprises dans des pays autres que le sien ou d’études publiées dans des revues moins connues. Bien que cette omission puisse simplifier la tâche de résumer la documentation, elle peut aussi mener à un biais, souvent en omettant les études qui fournissent des points de vue divergents. Les objectifs d’une revue systématique sont d’identifier toutes les études pertinentes liées à un traitement ou à une intervention donnée, d’en évaluer la qualité et de résumer l’ensemble des résultats. Un élément clé est l’exhaustivité de l’analyse documentaire; les conclusions devraient être fondées sur l’ensemble de la littérature, y compris souvent la littérature « grise » des rapports publiés sous forme de documents de travail ou de rapports internes.18 L’auteur d’une revue systématique formule un résumé verbal des résultats de l’étude combinée (comme on le voit, par exemple, dans les revues Cochrane, voir ci-dessous); mais lorsque les articles examinés sont suffisamment similaires, leurs données peuvent être regroupées dans une méta-analyse combinée.

Les méta-analyses

Une méta-analyse fournit une synthèse statistique de données d’études différentes, mais comparables. On accepte généralement qu’une méta-analyse de plusieurs essais comparatifs aléatoires offre de meilleures preuves qu’un seul essai. L’analyse peut soit regrouper les données de chaque personne dans les différentes études et réanalyser les données ainsi combinées, soit agréger les résultats publiés de chaque étude pour produire une estimation globale et combinée. L’estimation est normalement pondérée en fonction de la taille relative des études, et parfois aussi par un jugement sur leur qualité. Les essais comparatifs aléatoires ou d’autres plans d’étude, y compris les études cas-témoins et les études de cohortes, peuvent faire l’objet de méta-analyses. S’il est impossible de rassembler des données en raison de contrastes entre les plans d’étude, on peut résumer les résultats de différentes études dans un examen narratif ou les présenter à l’aide d’un graphique « en forêt », comme dans la figure 5.8. 

Figure 5.8 : Exemple de graphique en forêt comparant les rapports de cotes de quatre études cas-témoins (les RC sont représentées par des carrés et les intervalles de confiance par des traits horizontaux), avec le résultat de la méta-analyse (représenté par le losange) rassemblant les résultats des études individuelles. La taille des carrés est relative à la taille de l’échantillon de chaque étude. Le trait vertical représente un rapport de taux de 1,0 indiquant qu'il n'existe aucune différence relative au risque entre les groupes d'étude. Les résultats à la gauche du trait vertical indiquent une réduction du risque (RC < 1,0); les résultats à la droite indiquent une augmentation (RC > 1,0).
Figure 5.8 : Exemple de graphique en forêt comparant les rapports de cotes de quatre études cas-témoins (les RC sont représentées par des carrés et les intervalles de confiance par des traits horizontaux), avec le résultat de la méta-analyse (représenté par le losange) rassemblant les résultats des études individuelles. La taille des carrés est relative à la taille de l’échantillon de chaque étude. Le trait vertical représente un rapport de taux de 1,0 indiquant qu’il n’existe aucune différence relative au risque entre les groupes d’étude. Les résultats à la gauche du trait vertical indiquent une réduction du risque (RC < 1,0); les résultats à la droite indiquent une augmentation (RC > 1,0).

La Collaboration Cochrane

Les examens systématiques et les méta-analyses sont habituellement réalisés par des spécialistes des contenus et de la recherche. Ils travaillent souvent en équipe, comme c’est le cas de la Collaboration Cochrane, une organisation internationale qui aide les scientifiques, les médecins et les décideurs à prendre des décisions éclairées relatives aux soins de santé en coordonnant des examens systématiques portant sur les effets d’interventions cliniques. Les versions électroniques de ces examens se trouvent dans la base de données d’examens systématiques de Cochrane. Un des premiers exemples d’examen systématique est celui portant sur le recours aux corticostéroïdes chez les femmes donnant naissance prématurément afin d’accélérer la maturation des poumons du fœtus et de prévenir le syndrome de détresse respiratoire néonatal. Les bébés très prématurés présentent un risque plus élevé de détresse respiratoire en raison de l’immaturité de leurs poumons. Cela représente une cause importante de morbidité et de mortalité. Selon les résultats de 21 essais aléatoires, le traitement par corticostéroïdes n’augmente pas le risque pour la mère, réduit la mort néonatale de 30 % et offre des bienfaits semblables pour toute une gamme d’autres résultats. On a donc généralisé ce traitement pour les femmes présentant un risque d’accouchement prématuré afin d’accélérer la maturation des poumons de leur fœtus.

On considère aujourd’hui les méta-analyses comme étant la source des meilleures preuves. Il a donc fallu modifier la hiérarchie des preuves initiale du Groupe d’étude canadien; ainsi, le premier niveau de la hiérarchie est maintenant subdivisé comme suit :

1.1 Examens de la Collaboration Cochrane;
1.2 Examens systématiques;
1.3 Directives fondées sur les preuves;
1.4 Résumés de preuves.

L’étape finale : appliquer des résultats d’étude à vos patients

La discussion portant sur les revues systématiques boucle la boucle : nous voilà de retour à l’évaluation critique de la documentation. La première étape consiste à formuler un jugement global de la qualité de l’étude ou des études. Pour ce faire, de nombreuses listes de vérification sont à notre disposition. Les listes originales ont été élaborées à l’Université McMaster et publiées en une série d’articles parus dans le Journal of the American Medical Association en 1993 et 1994. Ces articles traitent de l’évaluation critique de preuves liées à la cause, au pronostic, à la précision du diagnostic et à l’efficacité des traitements. Il existe aujourd’hui de nombreuses listes de vérification pour aider les évaluateurs. Pour illustrer le format général, nous énumérons quelques questions utilisées pour évaluer un article sur l’efficacité d’une thérapie. Une fois que vous êtes convaincu qu’une étude fournit une réponse valide à une question clinique pertinente, vérifiez que les résultats sont applicables à votre population de patients.

Liste de vérification pour évaluer la qualité d’une étude sur l’efficacité d’un traitement


Objectifs de l’étude

  • La question de l’étude était-elle clairement énoncée? Par exemple, a-t-elle suivi le format
  • ?
  • L’exposition était-elle clairement définie ? Le résultat a-t-elle été clairement défini ? (Ou les objectifs et les résultats de l’étude étaient-ils formulés de manière vague, comme dans « Pour décrire les effets sur la santé de la consommation de restauration rapide »)

Les résultats sont-ils valides?

  • Le plan d’étude était-il approprié ? Les patients ont-ils été répartis aléatoirement?
  • Y avait-il eu des erreurs systématiques (biais) dans l’exécution de l’étude ? Par exemple, la randomisation a-t-elle été dissimulée : les patients étaient-ils au courant de leur affectation de groupe ?
  • S’il s’agit d’une étude cas-témoins, y avait-t-il eu une erreur de classification possible du traitement ou de l’évolution de la maladie ?
  • Les cliniciens traitant les patients étaient-ils au courant de la répartition des groupes?
  • Les évaluateurs des résultats étaient-ils au courant de la répartition des groupes? (La répartition a-t-elle été réalisée à l’insu des évaluateurs?)
  • Les patients dans le groupe de traitement et le groupe témoin étaient-ils semblables quant aux variables connues du pronostic? (Par exemple, le nombre de fumeurs était-il semblable dans chaque groupe d’une étude sur un traitement contre l’asthme?)
  • Le suivi incluait-il tous les patients?
  • Les patients ont-ils été analysés dans les groupes auxquels ils ont été affectés?

Quels sont les résultats?

  • Quelle était l’ampleur de l’effet du traitement?
  • Quel était le degré de précision de l’estimation de l’efficacité du traitement?

Comment puis-je appliquer les résultats aux soins des patients?

  • Les patients de l’étude ressemblent-ils aux miens?
  • Les bienfaits probables du traitement l’emportent-ils sur ses risques et ses coûts potentiels?

Comment dois-je traiter ce patient-ci?

  • Quels sont les résultats probables dans son cas?
  • Ce traitement est-il voulu par le patient?
  • Le traitement est-il offert ici?
  • Le patient est-il disposé et apte à recevoir le traitement?

La population cible

La population de l’étude ressemble-t-elle à celle de votre cabinet, pour que vous puissiez appliquer les résultats à votre propre pratique (voir la figure 5.5)? Demandez-vous si le sexe, le groupe d’âge, l’origine ethnique, les conditions de vie et les ressources des participants de l’étude sont semblables à ceux de vos patients. Par exemple, une étude sur la prise en charge des cardiopathies peut avoir sélectionné son échantillon dans une clinique de soins cardiovasculaires spécialisés. Il est probable qu’un patient dans un centre de médecine familiale soit moins gravement malade qu’un patient dans un centre de soins spécialisés. Ces deux patients pourraient donc réagir différemment au traitement. Si l’étude utilise des critères d’inclusion restreints et des critères d’exclusion étendus, il est possible que très peu de vos patients ressemblent à ceux de l’étude. En outre, il est probable que les soins complémentaires et les autres ressources disponibles dans un centre de soins spécialisés soient très différents de ceux d’un milieu de soins primaires. Si ces éléments comptent beaucoup dans la prise en charge des patients, leur absence peut éliminer les bienfaits du traitement à l’étude. D’autres aspects de l’environnement peuvent aussi être différents : si l’étude conclut que les conseils en matière d’exercice sont efficaces, mais qu’elle a été réalisée dans une grande ville, vous pourriez ne pas obtenir les mêmes résultats dans un milieu rural où il est plus difficile de faire de l’exercice au quotidien.

L’intervention

L’intervention est-elle réalisable au sein de votre pratique? Possédez-vous l’expertise, la formation et les ressources nécessaires pour réaliser l’intervention vous-même? Pouvez-vous orienter votre patient ailleurs, où l’expertise et les ressources sont disponibles? Dans bien des cas, de tels problèmes pratiques indiquent qu’une intervention s’avérant efficace dans un essai ne l’est pas nécessairement en pratique courante. L’enthousiasme et le savoir-faire des pionniers expliquent en partie cette différence; les fonds et les ressources supplémentaires que l’on utilise dans le cadre de projets de recherche peuvent aussi produire un effet.

Quel est le coût?

Le coût comprend la somme nécessaire pour payer l’intervention, le salaire du personnel qui doit l’administrer, la souffrance qu’elle cause au patient, la somme que le patient doit débourser pour recevoir l’intervention, les services médicaux complémentaires, le transport et l’absence du travail. Une intervention qui exige beaucoup de temps, d’argent et de souffrance pourrait ne pas être acceptable en pratique.

L’intervention dans le groupe témoin

Qu’a-t-on fait pour les participants du groupe témoin? S’ils n’ont rien reçu, y compris aucune attention de la part des chercheurs, est-il possible que les personnes dans le groupe d’intervention manifestent, en partie, un effet placébo découlant de l’attention reçue? En général, on doit comparer les nouvelles interventions au traitement classique dans le groupe témoin afin que les bienfaits et les coûts supplémentaires du nouveau traitement puissent être comparés à ceux de l’ancien.

Les préférences de votre patient

En dernier lieu, tous les plans de prise en charge doivent respecter les préférences et les aptitudes des patients. Le clinicien doit expliquer les risques et les avantages de tous les traitements, surtout les nouveaux, en s’assurant que le patient les comprenne, et aider le patient à choisir une ligne de conduite qui réduise les méfaits et qui maximise les bienfaits pour lui ou pour elle.

Les limites de la médecine factuelle

L’objectif central des études de recherche en médecine est de guider la pratique. Un défi fondamental réside dans la variabilité des populations humaines, de sorte qu’une étude entreprise à un autre moment et à un autre endroit peut, ou non, fournir de l’information pertinente pour traiter le patient devant vous. Ce dilemme exige que le médecin n’applique pas sans poser de questions les résultats de la recherche aux soins de ses patients, et qu’il n’ignore pas les résultats de la recherche dans le domaine de la médecine qui évolue rapidement (voir l’encadré Pour les mordus).

La médecine factuelle a ses détracteurs

Plusieurs mises en garde ont été formulées contre l’application irréfléchie des résultats d’études empiriques. Divers auteurs ayant un penchant philosophique ont discuté de la notion de ce qui devrait constituer des « preuves » en médecine, et en particulier de la façon dont les différents types de preuves devraient être intégrés dans la prestation de soins optimaux aux patients. La médecine factuelle accorde la priorité aux preuves empiriques issues de la recherche clinique, mais comment les combiner avec l’expérience clinique du médecin, avec les théories sous-jacentes de la maladie et de la guérison, avec les valeurs et les préférences du patient et avec les contraintes réelles des ressources ? Ces sources d’information diffèrent par leur nature et peuvent être tendues, de sorte qu’il n’est pas clair comment le clinicien résout ce problème.19

D’autres auteurs ont abordé l’énigme logique de la généralisation des résultats de l’étude à un patient particulier : les essais cliniques ne génèrent pas de connaissances universelles, mais nous renseignent sur les résultats moyens d’échantillons particuliers (et souvent hautement sélectionnés) étudiés. La médecine factuelle ne fournit pas de directives claires sur la manière dont le clinicien doit décider dans quelle mesure le patient à portée de main correspond aux patients de l’étude et donc dans quelle mesure l’étude peut être pertinente. Face à cette incertitude, le clinicien peut avoir l’impression que son expérience clinique personnelle est plus convaincante que les résultats généraux de la recherche. La médecine translationnelle développe de plus en plus de moyens d’orienter la prise de décision médicale à l’aide de calculs coûts/avantages.20

D’autres critiques de la médecine factuelle se sont concentrés sur la primauté de l’essai randomisé. Worrall, par exemple, a noté que la randomisation n’est qu’une façon, et une façon imparfaite, de contrôler les facteurs de confusion qui pourraient biaiser les résultats. En présence d’un grand nombre de facteurs de confusion, il est peu probable que la randomisation équilibrera tous ces facteurs entre les groupes d’étude. Worrall conclut que tout essai clinique particulier aura au moins un type de biais, ce qui rend le groupe expérimental différent du groupe témoin de façon pertinente. Il soutient, en effet, que les ECA ne sont pas intrinsèquement plus fiables qu’une étude observationnelle bien conçue.21

Cette préoccupation est liée à l’échec courant à reproduire les résultats de nombreux essais cliniques. Ioannidis a rapporté que sur 59 études de recherche originales très citées, moins de la moitié (44 %) ont été reproduites ; 16 % ont été contredites par des études ultérieures et 16 % ont trouvé l’effet plus faible que dans l’étude originale ; le reste n’a pas été répété ou contesté.2 Il est bien connu que même les études de haute qualité financées par les compagnies pharmaceutiques sont trois à quatre fois plus susceptibles de démontrer l’efficacité d’une intervention que les études financées par d’autres sources. Une autre forme courante de biais de publication est que les études montrant des résultats nuls sont moins susceptibles d’être publiées. Il y a un débat actif sur le développement futur de la médecine fondée sur des données probantes, et les moyens de la combiner avec d’autres formes de données probantes semblent susceptibles d’être proposés dans les années à venir.2

Question d’auto-évaluation

1. Vous êtes la conseillère du ministre de la Santé : comment feriez-vous pour concevoir et mettre en œuvre une série d’études visant à déterminer la relation entre l’utilisation personnelle d’une chaîne stéréo et la perte auditive due au bruit?

D’abord, il faut discuter des plans d’étude. Compte tenu qu’un essai aléatoire sur des sujets humains serait contraire à l’éthique, une étude de cohorte est-elle réalisable? Quelle en serait la durée? Si vous choisissez une étude cas-témoin, comment allez-vous recueillir les renseignements sur le volume sonore? Est-il nécessaire d’étudier ce phénomène au niveau individuel? Pourriez-vous obtenir une approximation brute, mais utile, au niveau de la population en établissant une corrélation entre la surdité et la vente des chaînes stéréo (donc, ne réaliser aucune entrevue)?

Deuxièmement, songez à la collecte de données : Dans quelle mesure l’autodéclaration serait-elle efficace? Quel serait le degré de précision d’une autodéclaration rétrospective de l’usage par des personnes devenues sourdes? Est-il possible qu’elles déclarent un usage plus élevé étant donné qu’elles souffrent maintenant d’un problème médical? Serait-il préférable de modifier certaines chaînes stéréo personnelles pour enregistrer la fréquence d’utilisation et le volume sonore?

Bibliographie

1. National Institutes of Health. Citations added to MEDLINE by fiscal year U.S. National Library of Medicine2017 [source cité en novembre 2017]. Disponible ici : https://www.nlm.nih.gov/bsd/stats/cit_added.html.
2. Ioannidis JP. Contradicted and initially stronger effects in highly cited clinical research. JAMA. 2005;294(2):218-28.
3. Lett J. A field guide to critical thinking. 1990 [source citée en novembre 2017]. Disponible ici : https://www.csicop.org/si/show/field_guide_to_critical_thinking.
4. Porta M, editor. A dictionary of epidemiology. New York (NY): Oxford University Press; 2008.
5. Sackett DL, et al. Evidence-based medicine – how to practice and teach EBM. London: Churchill-Livingstone; 2000.
6. Schwandt TA. Qualitative inquiry: a dictionary of terms. Thousand Oaks (CA): Sage Publications; 1997.
7. Nkwi P, Nyamongo I, Ryan G. Field research into socio-cultural issues: methodological guidelines. Yaounde, Cameroon: International Center for Applied Social Sciences, Research and Training/UNFPA, 2001.
8. Richards I, Morese JM. Read me first for a users’ guide to qualitative methods. Thousand Oaks (CA): Sage Publications; 2007.
9. Cockburn J, Hill D, Irwig L, De Luise T, Turnbull D, Schofield P. Development and validation of an instrument to measure satisfaction of participants at breast cancer screening programmes. Eur J Cancer. 1991;27(7):827-31.
10. Smith GCS, Pell JP. Parachute use to prevent death and major trauma related to gravitational challenge: systematic review of randomised controlled trials. BMJ. 2003;327(7429):1459-91.
11. Sackett DL. Bias in analytic research. J Chron Dis. 1979;32:51.
12. Miettinen OS. Theoretical epidemiology: principles of occurrence research in medicine. New York (NY): John Wiley; 1985.
13. Connor-Gorber S, Shields M, Tremblay MS, McDowell I. The feasibility of establishing correction factors to adjust self-reported estimates of obesity. Health Reports. 2008;19(3):71-82.
14. Renkonen KO, Donner M. Mongoloids: their mothers and sibships. Ann Med Exp Biol Fenn. 1964;42:139-44.
15. Anderson GL, Judd HL, Kaunitz AM, et al. Effects of estrogen plus progestin on gynecologic cancers and associated diagnostic procedures: The Women’s Health Initiative randomized trial. JAMA. 2003;290:1739-48.
16. Evans D. Hierarchy of evidence: a framework for ranking evidence evaluating healthcare interventions. J Clin Nursing. 2003;12(1):77-84.
17. GRADE Working Group. Grading quality of evidence and strength of recommendations. BMJ. 2004;328(7454):1490.
18. Liberati A, Altman DG, Tetzlaff J, et al. The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate health care interventions: explanation and elaboration. Ann Intern Med. 2009;151:W65-W94.
19. Tonnelli MR. Integrating evidence into clinical practice: an alternative to evidence-based approaches. Journal of Evaluation in Clinical Practice. 2006;12(3):248-56.
20. Solomon M. Just a paradigm: evidence-based medicine in epistemological context. European Journal of Philosophical Science. 2011;1:451-66.
21. Worrall J. Evidence in medicine and Evidence-Based Medicine. Philosophy Compass. 2007;2(6):981-1022.

English (Anglais)