Comment tirer de façon graphique et sans redondance toute l’information contenue dans un tableau de données.
Les données comprennent les comptages en 12 sites tropicaux de 10 espèces d’insectes, ainsi que l’altitude, l’humidité, et la distance des sites au lac.
Matrice de correlation
Les coefficients de corrélation, compris entre -1 et 1, ont été multipliés par 100 :
Une matrice de corrélation n’est pas facile à dépouiller directement.
L’absence d’erreur de mesure et la précision des chiffres ne préservent pas des erreurs d’interprétation.
En effet, une forte corrélation n’est pas toujours une information pertinente si elle dépend d’une tierce variable.
Inversement lorsqu’une variable dépend de plusieurs variables indépendantes, ses corrélations avec chacune d’entre elles peuvent être faibles, et cependant pertinentes.
Considérée isolément, la valeur numérique d’un coefficient de corrélation peut donc conduire à des erreurs d'interprétation ou de décision. Il faut une vue d’ensemble de la matrice.
Une interprétation sûre des données disponibles
L’Iconographie des Corrélations remplace la matrice de corrélation par un dessin global où sont seulement tracées les corrélations « remarquables ». Riche d’informations, elle est facile à interpréter sans risque :
L’idée, à la fois simple et sévère, est de contrôler chaque coefficient de corrélation en tirant partie du contexte, c’est-à-dire des autres variables du tableau. Une corrélation n’est pas « remarquable » si elle disparaît lorsque l’une des autres variables disponibles est constante.
Dans l’iconographie des corrélations il n’y a pas d’axe à interpréter. La figure 1 se lit donc directement d’après les liens « remarquables » positifs (traits pleins) ou négatifs (pointillés) :
Voici l’Analyse en Composante Principale (ACP) des mêmes données, sur laquelle le logiciel CORICO ajoute les liens positifs ou négatifs de l’iconographie des corrélations :
L’ACP est la projection dans le plan où le nuage de points s’étale le plus. Ce plan est défini par les axes 1 et 2,
Dans l’ACP il est difficile d’interpréter les proximités de points qui ne sont pas dans la périphérie du plan : il faudrait regarder la projection du nuage de points dans d’autres plans.
En soulignant les liens « remarquables », l’iconographie des corrélations donne plus de sûreté à l’interprétation. Ceci est encore plus précieux dans les cas de données rassemblant à la fois des variables qualitatives et quantitatives.
Effet du couplage de variables d’environnement
Nous pouvons aller plus loin, et rechercher l’effet « d’interactions logiques » entre les 3 variables d’environnement sur les abondances d’insectes.
La figure 3 retrouve des informations de la figure 1, mais, avec les « interactions logiques », elle offre une information plus fine :
Modèles prédictifs des abondances d'insectes
Dans les modèles de régression multiple de CORICO,
Les modèles des abondances d’insectes en fonction des variables d’environnement, sont calculés ici de deux façons différentes.
1. Modèles avec interactions « * »
Ces modèles n’utilisent que les facteurs simples ou les interactions de type « * » (produit de facteurs).
Sauf pour les insectes 4, 8 et 9, les R2 ajustés de ces modèles ne sont pas très bons. Pour certains, CORICO conseille de modéliser plutôt le logarithme de l’abondance.
2. Modèle avec « interactions logiques »
Ces modèles utilisent les « interactions logiques » plus fréquentes en pratique que les interactions "*".
L’introduction, dans les modèles, des « interactions logiques » qui ont un sens physique très fort, a permis d’améliorer tous les R2 ajustés, ainsi que la qualité prédictive (Q2) des modèles, et le F de Fischer Snedecor. L'erreur standard de prédicion (SEP) diminue fortement.
Conclusion
Les modèles ont une utilité prédictive ; l’Iconographie des Corrélations, quant à elle, aide à l’interprétation. Dans les deux cas, l’introduction des « interactions logiques » apporte une forte amélioration.
Dans l’Iconographie des Corrélations, Les redondances sont éliminées, rien d'important n'est oublié.
Chaque élément de la figure est facile à interpréter.
L’Iconographie des Corrélations, qui présente l’essentiel sur une figure unique, tient compte du contexte et permet d’éviter les « fausses bonnes corrélations ».
Elle reste aussi facile à interpréter même si les variables reflétant le contexte sont nombreuses. Dans ce cas en effet, un plus grand nombre de « fausses bonnes corrélations » sont éliminées.
Voir aussi :
Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.