Comment éviter les biais de confusion ?

Un facteur de confusion peut expliquer le lien apparent entre deux autres variables.

Facteur confondant

Par exemple on observe une forte corrélation entre le poids des élèves du collège et leur note en mathématique. Mais si l’on remarque que tous les élèves, de 12 à 18 ans, ont effectué le même exercice de mathématique, on comprend que les élèves les plus jeunes, moins lourds, mais aussi moins expérimentés ont de moins bonnes notes.

La corrélation entre Poids et Note est « statistiquement significative », mais elle n’est pas « remarquable ».

L’âge est un « facteur de confusion », encore appelé « facteur confondant ».

Les méthodes classiques pour éviter les confusions

Plusieurs méthodes ont été proposées :

  • Sélectionner de manière aléatoire les échantillons (randomiser).
  • Restreindre l’étude aux échantillons où le facteur de confusion est constant (par exemple ne considérer que des élèves de même âge). C’est d’autant plus difficile que le nombre de facteurs de confusion est grand. En outre on risque d’introduire un biais de sélection.

  • Stratification : on étudie la relation pour les différentes valeurs du facteur de confusion. Difficile si dans l’exemple ci-dessus tous les élèves ont un âge différent. Aucune des strates ne doit être vide (difficile si le nombre de facteurs de confusion est grand).

  • Toutes ces méthodes exigent un grand nombre d’échantillons. Elles reposent sur des notions comme le « risque relatif » ou « l’odd ratio » qu’on ne peut calculer si une strate est vide. Elles exigent d’identifier à l’avance le ou les facteurs de confusion à mesurer.

    Les modèles de régression multiple sont une autre approche, mais reposent sur des hypothèses assez fortes.

    Un outil plus général : la corrélation partielle

    Voici un autre moyen de détecter le facteur de confusion. Connaître la corrélation entre poids et note si l’âge était resté constant.

    Il suffit de calculer la « corrélation partielle » entre poids et note si l’âge est constant.

    La « corrélation partielle est une notion géométrique comme le coefficient de corrélation (COSINUS).

  • Elle peut donc toujours être calculée quel que soit le nombre d’observations (>2), et même si, dans notre exemple, tous les élèves ont un âge différent.
  • La méthode ne repose sur aucune hypothèse. Appelée « Iconographie des Corrélations », elle fonctionne quel que soit le nombre de facteurs confondants.
  • Le résultat est d’autant plus sûr que l’on tient compte de plus de variables relatives au contexte. Car les facteurs de confusion ne sont pas souvent connus d’avance.

    Par exemple en épidémiologie, pour apercevoir l’association d’un facteur d’Exposition et d’une Maladie, ou l’effet d’un médicament sur une maladie, on prendra aussi en compte les paramètres relatifs au contexte : alimentation, paramètres cliniques etc.

    Un facteur de confusion est un paramètre lié à la fois à l’exposition et à la maladie et responsable de tout ou partie de leur association.

    Association et causalité

    Une association entre deux variables ne permet pas, par elle-même, de conclure à l'existence d'une relation causale. L’évidence d’une causalité augmente si cette association est constante et reproductible dans différentes populations et dans différentes circonstances. La connaissance antérieure d'un mécanisme d'action possible entre ces facteurs, renforce la vraisemblance d'une relation causale.

    Le principe de « l’Iconographie des Corrélations »

    On choisit un seuil de corrélation, par exemple 0.3.

    Il faut, pour « remarquer » une corrélation

  • que la corrélation r(A,M) du facteur A avec la variable M soit supérieur à ce seuil,
  • que chacune des corrélations partielles r(A,M) par rapport aux variables de contexte, soit aussi supérieure à ce seuil.
  • Alors seulement on trace un lien entre les deux variables.

    Il s’agit simplement de détecter les effets confondants, et d’écarter les « fausses bonnes corrélations » et les liens indirects. Ce test est d’autant plus sévère et sûr que le nombre de variables reflétant le contexte est grand.

    Autres applications

    Ce test simple, mais efficace, utilisé dans le logiciel CORICO, rend aussi service en lieu et place d'autres méthodes multivariées, d’interprétation souvent délicate comme

    les biais cognitifs évités

    L'Iconographie des Corrélations, en prenant en compte plusieurs sources d'information sur le contexte, par le recul qu'elle nous donne, et l'absence d'hypothèse, expose moins nos décisions à plusieurs biais cognitifs :

    le biais de confirmation (tendance à privilégier les informations qui confirment nos croyances et à ignorer celles qui les contredisent);

    le biais de disponibilité (tendance à accorder plus de poids aux informations facilement accessibles);

    le biais d'ancrage (le fait que notre première impression ou notre première information sur un sujet influence fortement notre jugement ultérieur);

    le biais de surconfiance (tendance à surestimer nos propres capacités ou notre niveau de connaissance par rapport à la réalité);

    la pensée du "tout ou rien" (alors qu'en réalité les liens positifs ou négatifs peuvent être nombreux);

    le biais d’optimisme (tendance à surestimer les résultats positifs et à sous-estimer les résultats négatifs d’une situation);

    le biais d’autorité (tendance à accorder plus de crédibilité à une source d’information en raison de son statut d’autorité).


    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations