Tutoriel : une analyse de données sous CORICO

données

L’iconographie des corrélations et la régression multiple s’appliquent aussi bien à un tableau de données quelconque, qu’aux données issues d’un plan d’expériences.

Importons sous CORICO le tableau ci-contre ("tomass.cor" extrait de l’ouvrage La régression, nouveaux regards sur une ancienne méthode statistique. Tomassone, Lesquoy et Millier, Masson 1983) :

Dans ce plan d’expériences, on analyse le gain de poids de 30 animaux nourris de 6 façons différentes. Les facteurs sont :

  • La dose d'aliment, à 2 niveaux : basse (0) et élevé (1).
  • L’origine des aliments, à 3 niveaux : boeuf, céréales, porcs. L’origine a été ventilée sur 3 colonnes (facteurs qualitatifs).
  • Le poids initial avant expérimentation.

Quelle méthode utiliser ?

Ici, les statistiques élémentaires, comme moyennes, écart-types, etc. ont peu d’utilité, car la variable d’intérêt, le Gain de poids, n’est pas « aléatoire » mais dépend des facteurs, de façon déterministe. Les hypothèses sous-jacentes aux tests probabilistes (normalité…) ne sont pas vérifiées.

Choisissons plutôt une méthode exploratoire, sans hypothèses a priori : l’iconographie des corrélations.

Comment tenir compte d'influences inconnues ?

Le tableau contient donc 5 « facteurs » explicatifs, et une « réponse » (le Gain de poids).

On aimerait considérer que toutes choses sont égales par ailleurs.

Mais l'on peut imaginer des facteurs inconnus. Par exemple, des caractères propres à tel animal (son âge, ses ascendants, etc.) ou des phénomènes ayant eu lieu à l’instant de la mesure du gain de poids de l’animal ei (qui a fait la mesure ? Comment a-t-elle été faite ? Quel était la météo à ce moment-là ? Etc.).

Pour représenter toutes les influences inconnues, le logiciel CORICO crée la variable indicatrice « Instant ei » qui vaut 1 au moment de la mesure concernant l’observation ei, et 0 sinon. Il y a donc autant de facteurs « instants » que de lignes du tableau.

Choix du seuil de tracé

Sous CORICO, au menu « Fichier », sélectionner « Ouvrir un fichier »

Fichier

Fichier choisi

Choisissez le fichier tomass.cor et cliquez OK.

Ensuite, au menu « Schéma…Seuil :

Seuil





Saisissez un seuil de 0.15 (si vous avez un doute sur le choix du seuil, placez votre curseur dans la zone jaune, et cliquez sur la bouée de sauvetage :

Seuil CORICO

Cliquez sur le bouton « Autres options »

Alléger la figure

Menu Schéma…Allège :

Alléger

Pour alléger la figure sélectionnez « Instants non tracés »,

Instants non tracés

L’effet éventuel d’influences inconnues sera quand même évalué, mais les instants ne seront pas tracés, pour ne pas alourdir la figure. Ici, en effet, tous les « instants » sont remarquables par construction du plan d’expériences qui privilégie les valeurs extrêmes.

Cliquez « Autres options ».

Interactions

Demandons également la recherche d'interactions logiques entre les facteurs 2 à 2 :

Interactions

Choix interactions

Cochons toutes les interactions logiques et, en zone « Jusqu’à », arrêtons- nous au Porc, car le Gain de poids n’est pas un facteur, mais la réponse de l’expérience.

Cliquez « Autres options ».

Enregistrer les réglages précédents

Cliquez au menu « Schéma… Enregistrez la configuration » pour mémoriser toutes les options précédentes : ainsi, la prochaine fois que vous ouvrirez le fichier tomass.cor, vous pourrez passer directement à ce qui suit:

Lancer l’analyse

Cliquez sur le menu CORICO…Exécution complète » :

Execution

Vue rapide

Améliorer la qualité du dessin

Quittez complètement cette « Vue Rapide » sur fond noir (ne la réduisez pas, vous pourrez la revoir à tout moment au menu Voir...Vue Rapide), et cliquez au menu Voir…Dessin -> Fichier PostScript, pour obtenir un dessin de qualité vectorielle :

PostScript

Ensuite, cliquez au menu « Voir Traitement de texte sur la sphère ». Vous pouvez ici modifier la position des textes, la taille et les polices de caractère ainsi que les couleurs :

Traitement de texte

Interprétation du schéma

Interprétation

Le principe de l’iconographie des corrélations est simple : un lien n’est tracé entre deux variables que si, non seulement la corrélation entre elles est supérieure au seuil choisi plus haut (0.15), mais encore les corrélations partielles entre ces deux variables par rapport à n’importe quelle autre variable, y compris les instants définis plus haut, sont supérieures au seuil.

Ce critère sévère garantit la « solidité » des liens qui subsistent après ce traitement.

On note que les aliments sont liés par des liens négatifs (pointillés). En effet, ils sont mutuellement exclusifs : dans ces expérience, il n'y a jamais eu deux aliments en même temps.

Le gain de poids dépend principalement

  • de la dose d’aliment,
  • du poids initial de l’animal (les animaux déjà gros ont sans doute une constitution qui les rends propres à prendre plus de poids pour une même dose),
  • du bœuf, qui est l’aliment le plus énergétique,
  • de l’interaction logiques « Dose&-Céréales », qui signifie : « une forte dose et pas de céréales » (donc soit du bœuf, soit du porc).
  • Voir ici une comparaison de l’iconographie des corrélations et de l’analyse en composantes principales.

    Pour aller plus loin nous pouvons réaliser un modèle de prévision du gain de poids.



    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations