Data visualisation avec CORICO
Un outil efficace, rapide et sûr

Un tableau de données chiffrées est souvent difficile à appréhender correctement.

La précision des chiffres, l’absence d’erreur de mesure, ne préserve pas de l’erreur d’interprétation.

De tout temps, l’on a cherché à remplacer les tableaux de chiffres par des représentations visuelles plus ergonomiques (courbes, camemberts, histogrammes, nuages de points, ….)

Cependant les méthodes de visualisation en deux ou trois dimensions se prêtent mal aux cas multidimensionnels. Car si l’on remplace une multitude de chiffres par une multitude de graphes, la vue d’ensemble est difficile.

De plus, selon la manière dont sont présentées les données, les faits essentiels sont plus ou moins visibles.

« L’Iconographie des Corrélations » ne présente pas ces inconvénients.

Exemple

Qu’est-ce qui influe sur le gain de poids de 30 animaux ? Le type d’aliment (bœuf, céréales ou porc) ? Le poids initial de l’animal ? La dose d’aliment (0 : faible, ou 1 : fort) ?


data

Voici deux graphes de ces données :

Figure 1 Figure 2

Les figures 1 et 2 présentent les mêmes données dans un ordre différent. Selon que l’on observe l'une ou l'autre figure, on risque de conclure différemment.

Ces graphes ne sont pas commodes à interpréter. Et pourtant ils ne contiennent que 4 des 6 variables, pour ne pas compliquer la lecture.

Si les mesures ont été faites successivement, l'ordre des mesures a peut-être un effet.

Ajoutons au tableau une colonne « Ordre » qui contient le numéro d’ordre de la ligne. Voici la matrice de corrélation des 7 variables :

Corrrelations

Au vu de cette matrice, les deux variables les plus corrélées au Gain de poids sont la dose et l’ordre. Qu’en est-il en réalité ? Peut-on visualiser cette matrice de façon concise ?

L’iconographie des corrélations

La figure 3 est tirée de la matrice de corrélation. Son principe est simple :

  • On choisit un seuil, par exemple 0,15, au-dessous duquel la valeur absolue de la corrélation entre deux variables A et B n’est pas considérée comme « remarquable »,
  • En outre cette corrélation, pour être « remarquable », doit rester de même signe et supérieure au seuil quand n’importe laquelle des autres variables disponibles est constante (les corrélations partielles entre A et B, par rapport à chacune des autres variables, doivent toutes être supérieure à 0,15 en valeur absolue).
  • Liens « remarquables » positifs : traits pleins; ou négatifs : traits pointillés.
  • Iconographie des corrélation

    Informations apportées par la figure 3

    Les aliments bœufs, céréales, et porc sont mutuellement exclusifs (traits pointillés). En effet ils n’ont jamais été donnés ensemble aux 30 animaux.

    Le gain de poids augmente avec

  • la dose,
  • l’aliment bœuf,
  • le poids initial de l’animal,
  • l’interaction logique « Dose&-Céréales », c’est-à-dire « dose ET NON céréales ». Donc il vaut mieux des protéines animales pour augmenter le gain de poids.
  • Malgré la forte corrélation totale entre ordre et gain de poids, la plus faible corrélation partielle entre ordre et gain de poids vaut -0,089 (par rapport à la dose, c'est à dire quand la dose est constante) ; le gain de poids ne dépend donc pas de l’ordre des lignes du tableau. Il dépend de la dose qui elle-même est liée à l’ordre dans ce tableau de données.

    Au contraire, des variables moins corrélées au Gain de poids, comme Boeuf et Poids intial, restent liés sur le schéma, car on n'a pas trouvé de corrélation partielle inférieure au seuil.

    On aperçoit ici la sécurité apportée par la lecture des liens vérifiés de l'iconographie des corrélations, par rapport à la simple lecture des chiffres de corrélations.

    Avantages de l’iconographie des corrélations

  • L’algorithme est simple (ce n’est pas une boîte noire).
  • La vue est immédiatement compréhensible (pas d’axes à interpréter).
  • Chaque élément de la figure est pertinent et non redondant.
  • La vue est concise : il ne manque rien, et en même temps il n’y a rien à retirer tellement elle est sobre.
  • Les « fausses bonnes corrélations » sont éliminées (ici la corrélation du Gain de poids avec l’ordre n’est pas « remarquable », bien que forte numériquement).
  • La vue est multidimensionnelle.
  • Une option du logiciel CORICO peut aussi faire apparaître les points atypiques. La figure 4 est un extrait de la figure complète, où sont tracés seulement les liens au Gain de poids :

    Iconographie des corrélation Figure 4 : les liens à Gain de poids

    Outre les liens déjà signalés figure 3, les traits pointillés de la figure 4 soulignent la valeur remarquablement faible du gain de poids des animaux e11 et e12.

    Si le tableau de données avait contenu 1000 variables au lieu de 7, il suffirait, comme ci-dessus, de ne tracer que les liens au gain de poids pour obtenir une figure claire.

    Il est donc toujours plus rapide et plus sûr d’analyser d’emblée l’ensemble des variables disponibles, quitte à ne tracer que les liens à la variable d’intérêt.

    Conclusion

    Quelle que soit la taille du tableau de données, le logiciel CORICO permet une data visualisation intuitive et sûre, qui répond à trois objectifs : communiquer, captiver et convaincre, tout en y passant le moins de temps possible.

    Sur une figure unique, l’information est plus facile à comprendre et à mémoriser.

    CORICO fait ressortir les relations essentielles et les points atypiques, qui risquaient de passer inaperçus au sein des données chiffrées. Il rend intelligible les données, avec une véritable garantie quant à la qualité des informations « remarquables », afin d’optimiser la prise de décision,

    Voir aussi :



    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIAL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriaux

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations