Abondances d’insectes et variables environnementales.
Analyse de données facile avec le logiciel CORICO

Comment tirer de façon graphique et sans redondance toute l’information contenue dans un tableau de données.

Les données comprennent les comptages en 12 sites tropicaux de 10 espèces d’insectes, ainsi que l’altitude, l’humidité, et la distance des sites au lac.

insectes

Matrice de correlation

Les coefficients de corrélation, compris entre -1 et 1, ont été multipliés par 100 :

corrélations insectes

Une matrice de corrélation n’est pas facile à dépouiller directement.

L’absence d’erreur de mesure et la précision des chiffres ne préservent pas de l’erreur d’interprétation.

En effet, une forte corrélation n’est pas toujours une information pertinente si elle dépend d’une tierce variable.

Inversement lorsqu’une variable dépend de plusieurs variables indépendantes, ses corrélations avec chacune d’entre elles peuvent être faibles, et cependant pertinentes.

Considérée isolément, la valeur numérique d’un coefficient de corrélation peut donc conduire à des erreurs d'interprétation ou de décision. Il faut une vue d’ensemble de la matrice.

Une interprétation sûre des données disponibles

L’Iconographie des Corrélations remplace la matrice de corrélation par un dessin où sont seulement tracées les corrélations « remarquables ». Riche d’informations, elle est facile à interpréter sans risque :

L’idée, à la fois simple et sévère, est de contrôler chaque coefficient de corrélation en tirant partie du contexte, c’est-à-dire des autres variables du tableau. Une corrélation n’est pas « remarquable » si elle disparaît lorsque l’une des autres variables disponibles est constante.

insectes

Dans l’iconographie des corrélations il n’y a pas d’axe à interpréter. La figure 1 se lit donc directement d’après les liens « remarquables » positifs (traits pleins) ou négatifs (pointillés) :

  • Quand l’altitude augmente la distance au lac aussi, et l’humidité diminue.
  • Les insectes 9 augmentent avec l’altitude.
  • Les insectes 7 augmentent avec la distance au lac.
  • Les insectes 4 augmentent si l’altitude diminue.
  • Les insectes 4 augmentent si les insectes 8 diminuent.
  • Les insectes 5 diminuent si Les insectes 7 augmentent.
  • Les insectes 2 diminuent si Les insectes 6 augmentent.
  • La figure 1 indique aussi les sites fréquentés de façon remarquable par tel ou tel insecte. par exemple :
    pour Les insectes 7 c’est le site 8,
    pour Les insectes 8 ce sont les sites 1 et 2 et pas le site 7,
    pour Les insectes 4 ce sont les sites 9 et 10.
    pour les insectes 1 et 10 c'est le site 4.
  • La distance au lac est plus faible sur les sites 11 et 12.
  • Voici l’Analyse en Composante Principale (ACP) des mêmes données, sur laquelle le logiciel CORICO ajoute les liens positifs ou négatifs de l’iconographie des corrélations :

    ACP insectes

    L’ACP est la projection dans le plan où le nuage de points s’étale le plus. Ce plan est défini par les axes 1 et 2,

  • L’axe 1 oppose l’humidité à la distance au lac et à l’altitude.
  • L’axe 2 est plus difficile à interpréter.
  • Dans l’ACP il est difficile d’interpréter les proximités de points qui ne sont pas dans la périphérie du plan : il faudrait regarder la projection du nuage de points dans d’autres plans.

    En soulignant les liens « remarquables », l’iconographie des corrélations donne plus de sûreté à l’interprétation. Ceci est encore plus précieux dans les cas de données rassemblant à la fois des variables qualitatives et quantitatives.

    Effet du couplage de variables d’environnement

    Nous pouvons aller plus loin, et rechercher l’effet « d’interactions logiques » entre les 3 variables d’environnement sur les abondances d’insectes.

    Interactions logiques

    La figure 3 retrouve des informations de la figure 1, mais, avec les « interactions logiques », elle offre une information plus fine :

  • L’abondance des insectes 1 et 6 augmente quand « la distance au lac est moyenne SI l’humidité est faible ».
  • L’abondance des insectes 1, 10 et 3 augmente quand diminue « l’humidité OU la distance au lac ».
  • L’abondance de l’insecte 8 augmente avec « la distance au lac SI l’altitude est forte »
  • L’abondance de l’insecte 5 augmente quand « l’altitude est moyenne SI la distance au lac est faible »
  • Modèles prédictifs

    Dans les modèles de régression multiple de CORICO,

  • les termes sont rangés par importance décroissante. Chaque régresseur expliquant le résidu non expliqué par les régresseurs précédents.
  • le logiciel arrête d’ajouter des régresseurs quand l’erreur standard de prédiction (SEP) cesse de décroître.
  • Les modèles des abondances d’insectes en fonction des variables d’environnement, sont calculés ici de deux façons différentes.

    1. Modèles avec interactions « * »

    Ces modèles n’utilisent que les facteurs simples ou les interactions de type « * » (produit de facteurs).

    Modèle régression 1

    Sauf pour les insectes 4, 8 et 9, les R2 ajustés de ces modèles ne sont pas très bons. Pour certains, CORICO conseille de modéliser plutôt le logarithme de l’abondance.

    2. Modèle avec « interactions logiques »

    Ces modèles utilisent les « interactions logiques » plus fréquentes en pratique que les interactions "*".

    Modèle régression 2

    L’introduction, dans les modèles, des « interactions logiques » qui ont un sens physique très fort, a permis d’améliorer tous les R2 ajustés, ainsi que la qualité prédictive (Q2) des modèles, et le F de Fischer Snedecor. L'erreur standard de prédicion (SEP) diminue fortement.

    Conclusion

    Les modèles ont une utilité prédictive ; l’Iconographie des Corrélations, quant à elle, aide à l’interprétation. Dans les deux cas l’introduction des « interactions logiques » apporte une forte amélioration.

    Dans l’Iconographie des Corrélations, Les redondances sont éliminées, rien d'important n'est oublié.

    Chaque élément de la figure est facile à interpréter.

    L’Iconographie des Corrélations, qui présente l’essentiel sur une figure unique, tient compte du contexte et permet d’éviter les « fausses bonnes corrélations ».

    Elle reste aussi facile à interpréter si les variables reflétant le contexte sont nombreuses. Dans ce cas en effet, un plus grand nombre de « fausses bonnes corrélations » sont éliminées.

    Voir aussi :



    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIAL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriaux

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations