Une comparaison entre l'Analyse en Composantes Principales et l'Iconographie des Corrélations.

Comment extraire l'information contenue dans des données multivariées pour produire une information utile, plus sûre et plus intelligible à un utilisateur humain ?

Le logiciel CORICO, fondé sur « l’Iconographie des Corrélations », contient également des méthodes multivariées classiques, comme « l’analyse en composantes principales » (ACP). Montrons l’un des apports de l’Iconographie des Corrélations.

L’une des limites de l’ACP est qu’elle requiert des ensembles de données homogènes. Or il est souvent utile de travailler sur des données non homogènes, par exemple, mélanger des données quantitatives et des données qualitatives, ou bien des données pluridisciplinaires dont on ne connaît pas à l’avance quelles sont celles qui exercent une influence sur les variables d’intérêt.

Comparons les méthodes sur deux cas simples de données homogènes.

Exemple 1

Les données, fichier complet ici, comprennent 44 observations de 9 variables. On cherche à expliquer Y. Voici le début du tableau :

Données

Dans l’Analyse en Composantes Principales (ACP), le nuage de points est projeté dans le plan où il s’étale le plus, défini par les axes 1 et 2 :

ACP

L’interprétation des axes de l’ACP n’est pas toujours facile.

Voici maintenant l’iconographie de corrélations des mêmes données :

Iconographie des corrélations

Iconographie des corrélations au Seuil 0.1
Trait plein : corrélation « remarquable » positive
Trait pointillé : corrélation « remarquable » négative

Dans l’iconographie de corrélations, il n’y a pas d’axe à interpréter. Il apparaît immédiatement que Y est lié à toutes les variables sauf H.

C’est normal puisque, ici, Y = A + B + C + D + E + F

En une seule figure, l’interprétation est claire et sans ambiguïté.


Exemple 2


Iconographie des corrélations

Figure A : Iconographie des Corrélations.

Considérons le cas d’école suivant : CORICO a donné l'image ci-contre. Il apparait deux ensembles de variables, pratiquement indépendants, en effet :

Deux groupes de variables distincts apparaissent, avec une structure remarquable en réseau régulier.

Il existe entre eux des liens : les variables E et H du groupe bleu sont liées négativement (traits pointillés) à certaines variables du groupe rouge.

L'iconographie des corrélations privilégie la représentation des liens et la clarté de la vue globale. Quelle que soit la dimension de l’espace des données (ici 4), la représentation se traduit par une image unique.

Le tracé explicite des liens lève toute ambiguïté entre proximités apparentes et réelles.

Passons à l'Analyse en Composantes Principales (ACP). Celle-ci privilégie au contraire la rigueur des positions, d’où la nécessité de les projeter sur plusieurs plans, au risque de nuire à la lisibilité et à l’interprétation. Le pouvoir de synthèse est inversement proportionnel au nombre d'axes nécessaires à la représentation :

ACP, axes 1 et 2

Figure B : Composantes principales 1 et 2.

Les groupes sont bien séparés par l’axe 1.

Inconvénient : certains points du groupe bleu ont la même projection (et donc ne se distinguent pas).

De plus, les groupes sont vus de profil ; leurs structures n’apparaissent pas.

ACP axes 2 et 3

Figure C : Composantes principales 2 et 3.

La structure du groupe rouge apparaît, mais tous les points du groupe bleu sont confondus en une même projection (au centre)

ACP, axes 3 et 4

Figure D : Composantes principales 3 et 4.

Inconvénients :

La structure des groupes n’apparaît pas.

Les groupes rouge et bleu se croisent.

ACP, axes 4 et 5

Figure E : Composantes principales 4 et 5.

La structure du groupe bleu apparaît, mais tous les points du groupe rouge sont confondus en une même projection (au centre).

Données Rosetta

Conclusion de la comparaison des traitements de données

L'analyse de données par la méthode CORICO bénéficie des apports des méthodes antérieures sans souffrir de leurs limitations :


  • Avec « l'analyse en composantes principales » de ces données relativement simples, il a fallu quatre projections (figures B, C, D, E) pour faire apparaître la structure de chacun des groupes, et la relation entre ces groupes. Cela exige de l'utilisateur une certaine concentration d’esprit, et une bonne mémoire, pour synthétiser toute l’information.

  • En « Iconographie des corrélations », la structure des deux groupes apparaît sur la seule figure A, et les liens remarquables sont soulignés d’emblée.
  • En effet, l'iconographie des corrélation n'est pas la projection sur un plan, mais un schéma de compréhension. La position des points a moins d'importance que la cohérence des liens et leur organisation.

    Difficultés propres à l'Analyse en Composantes Principales

    Dans l'ACP, il faut éviter d'interpréter les points mal représentés par les axes (les points proches du centre du plan factoriel).

    Lorsque les données comprennent beaucoup de variables d’origines diverses, il est souvent difficile d’interpréter les axes de l’ACP. Cela conduit l’utilisateur à une élimination préalable et délicate de plusieurs variables, avec le risque de passer à côté de l’interprétation correcte.

    Y a-t-il des observations ou des variables dont l'impact est excessif sur la direction des axes? Si oui, il convient de les retirer et de les projetter ensuite en "éléments supplémentaires".

    Combien d'axes convient-il de retenir? Cela peut dépendre des objectifs poursuivis (analyse descriptive, compression de données, prétraitement avant application de méthodes décionnnelles).

    La réponse à ces questions esr souvent subjective.

    TOUTES ces difficultés de l'Analyse en Composantes Principales, et plus généralement des Analyses Factorielles, viennent du recours aux axes de projections, qui sont des combinaisons linéaires des variables, difficiles à interpréter.

    L'intérêt de l'iconographie des corrélations

    On s'affranchit des inconvénients ci-dessus en évitant le recours aux axes.

    On peut associer des données pluridiscplinaires : physique, chimique, biologiques, environnementales, sociologiques...

    Dans l’Iconographie des corrélations, où chaque lien tracé est d’autant plus fiable qu’il a été vérifié par un plus grand nombre de variables reflétant le contexte, il est recommandé d'analyser d'un coup toutes les variables disponibles. Vous ne prenez aucun risque, et vous pouvez alors, si nécessaire, clarifier la figure en ne traçant que les liens à la variable d’intérêt, avec cependant l’assurance que tous les variables ont été prises en compte pour l’élimination des fausses bonnes corrélations.

    L'iconographie des corrélations est souple et robuste. L’éventuelle introduction de variables hors sujet a peu d’effet sur l’interprétation des variables d’intérêt. La présence d’une variable erronée a peu d’effet sur les autres liens du schéma

    Vous pouvez traiter simultanément les variables qualitatives et quantitatives, et ces dernières n’ont pas besoin d’être mises en classe, d’où un gain en précision.

    Conçue pour être compris du plus large public, l'Iconographie des Corrélations nous aide à surmonter notre difficulté à penser les choses dans leurs dépendances réciproques. En savoir plus.

    Voir aussi :

    D'autres exemples de traitement de données avec CORICO :


    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations