La classification croisée

La classification croisée (appelée aussi bi-partitionnement, co-clustering ou biclustering) consiste à ranger d’une autre manière les lignes et les colonnes d’un tableau de données.

Classification croisée non supervisée

coclustering

Comment a-t-on obtenu ici le rangement des colonnes ?

Plus deux variables se ressemblent, plus la somme de leurs corrélations avec les autres variables se ressemblent.

Pour chacune des colonnes, on calcule donc la somme de ses corrélations aux autres. Puis on range les colonnes selon l’ordre croissant de ces sommes.

Même principe pour ranger les lignes, à partir de la matrice de corrélation des lignes.

Lorsque les colonnes ont des unités différentes, par exemple température, pression, latitude, etc., il est préférable de ramener les variables à une unité commune (par exemple centrer réduire les variables), sinon le classement des lignes dépendra des unités choisies.


Ce classement croisé, basé sur des sommes de corrélations, est « non supervisé », car il ne privilégie aucune colonne ni aucune ligne.

Inconvénients:

  • la somme mélange plusieurs chiffres, ce qui peut produire une perte de précision, un effet de flou.
  • il est difficile de démêler plus de trois groupes.
  • Classification croisée fine non supervisée

    Une classification non supervisée plus générale, sans recours à des sommes, repose sur l’idée que plus deux colonnes sont corrélées, plus elles doivent être proches (même chose pour les lignes). Dans l’exemple ci-dessous, une classification croisée fine révèle six groupes :

    biclustering

    Avantages de cette classification croisée fine :

  • Pas de calculs de sommes
  • Il n’est pas nécessaire de connaître à l’avance le nombre de groupes.
  • La méthode s’applique aux données binaires ou continues.
  • Méthode non probabiliste.
  • Classification croisée supervisée

    Pour éviter les sommes, nous pouvons aussi superviser la classification en fonction d’une colonne et d’une ligne particulière.

    Par exemple selon la colonne 3 croissante et la ligne E croissante :

    Rangement du tableau

    Ou bien, classification des colonnes selon leurs corrélations croissante à la colonne 3, et classification des lignes selon leurs corrélations croissante à la ligne E :

    Rangement selon corrélation

    Ou bien encore, classification des colonnes selon les corrélations croissantes à la colonne 6, et classification des lignes selon les corrélations croissante à la ligne H :

    Rangement selon corrélation

    Limites de la classification croisée

    Le classification croisée peut avoir une utilité pratique sur les tableaux simples. Mais, si peu de colonnes ou lignes se ressemblent, la classification croisée donnera un piètre résultat.

    Pour une classification plus rigoureuse et plus féconde, mieux vaut se tourner alors vers des méthodes graphiques plus générales. Exemple.

    La classification croisée, qui est une représentation en deux dimensions, se prête mal à certains tableaux. Considérons par exemple les 24 permutations de 1,2,3,4 :

    Rangement

    Aucune des 3 classifications ci-dessus n’améliore la présentation des données.

    Au contraire une iconographie des corrélations, méthode multidimensionnelle, fait nettement apparaître l’organisation régulière de ces données :

    Iconographie des permutations

    Aucune ambiguïté : chaque lien « remarquable » est souligné ici par un trait plein (corrélation positive) ou pointillé (corrélation négative).

    La variable X par exemple est liée positivement à 3 variables (traits pleins) lesquelles ne sont pas liées entre elles. X est aussi liée négativement à 4 variables (traits pointillés).

    Au contraire, le rangement des colonnes (ou des lignes) par classification croisée ne permet pas une vue multidimensionnelle : une colonne n’est jamais voisine à plus de deux colonnes. Et l’aspect négatif n’est pas considéré explicitement.

    En iconographie des corrélations, quelle que soit la dimension des données, il est possible de représenter des liens à un nombre quelconque de variables, donc d’approcher la réalité où une variable ou une décision dépendent fréquemment de plusieurs facteurs indépendants.

    En résumé, l’intérêt de la classification croisée est de classer à la fois les lignes et les colonnes et de mettre en évidence des groupes homogènes, mais on ne peut lui demander plus qu’elle ne peut donner.

    Un exemple sur données réelles : les Poissons d’Amiard

    Les données « Poissons d’Amiard » sont tirées de CAILLIEZ F., PAGES J.P. (1976), Introduction à l’analyse des données, SMASH.

    Vingt-quatre mulets (sorte de rougets) sont répartis dans trois aquariums radio-contaminés de façon identique, à quoi correspondent des durées de contact différentes avec le polluant radioactif :

  • Le premier contient les poissons numérotés de 1 à 8
  • Le second contient les poissons numérotés de 9 à 17
  • Le troisième contient les poissons numérotés de 18 à 24 (Le poisson 17 est mort en cours d’expérience).
  • coclustering

    Dans ce qui suit, les 3 aquariums radio-contaminés seront notés « Un », « Deux » et « Trois ». « 13Deux » signifie poisson n°13 dans l’aquarium Deux, etc. « YeuxRA » signifie radioactivité des Yeux, etc.

    Après avoir ramené les colonnes du tableau à une unité commune, commençons par une classification croisée non supervisée ; nous obtenons le Tableau 2.

    coclustering

    Procédons aussi à une iconographie des corrélations, qui ne repose sur aucune hypothèse sur les données disponibles, ni aucun calcul de moyenne.

    Le but d’une iconographie des corrélations est d’élaguer l’accessoire pour se concentrer sur l’essentiel : aspects généraux et points atypiques. L’interprétation repose sur les liens tracés plus que sur les positions.

    Son principe est simple : le lien entre deux variables est dit « remarquable » (il est tracé) si la corrélation subsiste quand n’importe laquelle des autres variables disponibles est constante. En outre, un lien qui ne serait dû qu’à une observation n’est pas tracé.

    corico

    Figure 1 : Iconographie des corrélations, au seuil 0.3. Trait plein : corrélation « remarquable » positive ; pointillé : corrélation « remarquable » négative.

    Deux groupes apparaissent :

  • à gauche le groupe concernant les dimensions des poissons
  • à droite, le groupe rouge, concernant la radioactivité acquise par les différentes parties des poissons
  • Ces deux groupes s’opposent : la corrélation négative (ligne pointillée) entre le diamètre des yeux et la radioactivité des yeux signifie que lorsque les yeux sont grands leurs radioactivité est plus faible. Et comme le diamètre des yeux est lié à la largeur du poisson, elle-même liée à son poids, nous pouvons conclure que plus la taille du poisson est grande, moins ils sont radio contaminés ; ou encore que les petits poissons sont plus contaminés, peut-être parce que leur jeunesse les rend plus fragiles ; ou que la radioactivité influe sur la taille des poissons.

    D’autre part, cinq poissons atypiques apparaissent sur la figure 1 :

  • 19Trois et 23Trois pour leur radioactivité remarquable du tube digestif,
  • 20Trois pour sa radioactivité remarquable des écailles, du foie et des muscles,
  • 1Un et 23Trois pour leur radioactivité remarquable radioactivité du rein,
  • 13Deux, remarquable par sa largeur de museau, est aussi remarquable par sa radioactivité des muscles.
  • Classification croisée supervisée

    La différence observée entre petits et gros poissons nous conduit à superviser la classification croisée des colonnes par les corrélations au poids des poissons d’une part, et la classification des lignes par les corrélations au poisson « 4UN » qui est le plus lourd, d’autre part (tableau 3).

    (Il se trouve qu’ici on obtiendrait une classification croisée identique au tableau 3 en classant non d’après les corrélations mais d’après les valeurs du tableau, en unité commune.)

    coclustering

    Le tableau 3 confirme les fortes radioactivités des petits poissons : le groupe jaune-orange en bas à droite correspond aux fortes tailles de poissons. Le groupe rouge-orange en haut à gauche correspond aux fortes radioactivités.

    On retrouve les points atypiques remarquables de la figure 1 :

  • Dans la 8ème Colonne : tubeDigestifRA, les poissons 19Trois et23Trois (fortes valeurs orange et rouge)
  • EcaillesRA, FoieRA et MuscleRA pour 20Trois (fortes valeurs rouge)
  • ReinRA : 1UN et 23Trois (forte valeurs orange et rouge)
  • MuscleRA : 13Reux et 20Trois (fortes valeurs rouge)
  • Influence des Aquariums

    Jusqu’ici l’influence des aquariums n’est pas flagrante. Pour y voir plus clair ajoutons au tableau trois variables indicatrices des aquariums : la variable « UN » vaudra 1 si c’est l’aquarium 1, et 0 sinon ; la variable « DEUX » vaudra 1 si c’est l’aquarium 2, et 0 sinon ; la variable « TROIS » vaudra 1 si c’est l’aquarium 3, et 0 sinon.

    Procédons ensuite à une iconographie des corrélations (figure 2).

    corico

    Figure 2 : Iconographie des corrélations au seuil 0.3, Après ajout des aquariums « UN », « DEUX » et « TROIS ».
    Trait plein : corrélation remarquable positive ; trait pointillé : corrélation remarquable négative.

    On retrouve dans la figure 2 les informations de la figure 1, avec en plus les informations suivantes :

  • L’aquarium TROIS, où les durées de contact avec le polluants sont les plus grandes, a influencé surtout la radioactivité des nageoires.
  • L’aquarium DEUX est lié négativement aux aquariums UN et TROIS car les aquariums sont mutuellement exclusifs.
  • L’aquarium UN, où les durées de contact sont les plus faibles, est celui qui affecte le moins la radioactivité des branchies.
  • Voir aussi :

    D'autres exemples d'analyse de données avec le logiciel CORICO :


    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations