La classification ascendante hiérarchique en 4 langues

Une comparaison entre la Classification Ascendante Hiérarchique et l'Iconographie des Corrélations.


L'objectif de la classification ascendante hiérarchique est de rassembler des objets (par exemple, des animaux) dans des classes de moins en moins larges, en utilisant certaines mesures de similarité ou de distance. Ainsi les biologistes organisent les différentes espèces animales avant de décrire les différences entre les animaux. D'une manière générale, la classification hiérarchique permet de découper une "montagne" d'informations en groupes et sous-groupes sous la forme d’un arbre (ou dendrogramme).

La classification ascendante hiérarchique permet de mettre en évidence le regroupement « naturel » d’un ensemble d’individus décrits par des caractéristiques (les variables).

Par exemple : déterminer des groupes de patients réagissant identiquement, en vue de leur appliquer des protocoles thérapeutiques distincts.

La classification hiérarchique est une méthode intéressante, à condition que la structure des données soit effectivement hiérarchique. Voici un exemple où l’iconographie des corrélations apporte un supplément d’informations.

Z. Cienikovà a procédé à une classification des langues européennes en fonction du nombre d’occurrence des 26 lettres de l’alphabet. Le graphe suivant et les données sont tirés du site http://pbil.univ-lyon1.fr/R/enseignement.html):


CAH langues d'Europe


Cette représentation arborescente, propre à la classification ascendante hiérarchique (CAH) permet de dégager des groupes emboîtés.

Mais elle se prète mal à la description de liens formant des "boucles", par exemple : A lié à B lié à C lié à D lié à A.

Le résultat de la classification ascendante hiérarchique dépend de la définition de la "distance" choisie. A chaque étape, le critère de partition dépend des classes déjà obtenues ; deux individus dans des classes différentes ne sont plus comparés.

Voici l’analyse des mêmes données en Iconographie des Corrélations :


Iconographie des corrélations, langues d'Europe

Figure B (au seuil 0.3) : iconographie des corrélations. Liens entre langues européeennes selon l’occurrence des lettres de l’alphabet

On note la forte occurrence des lettres :

  • A en gaélique,
  • E en néerlandais,
  • S en lituanien.

La figure B montre, plus nettement que la classification hiérarchique de la figure A, les ressemblances (du point de vue de l’occurrence des lettres) :

  • du maltais à l’italien,
  • du gaélique au letton,
  • du finnois au hongrois,
  • etc.

Cette classification non hiérarchique met en évidence une organisation beaucoup plus « naturelle » : on observe des boucles qui auraient été impossibles à représenter dans la classification ascendante hiérarchique. Par exemple la boucle Italien, slovène, tchèque, espagnol, italien.

Pour pousser plus loin l’analyse, nous pouvons baisser le seuil de tracé, et faire aussi apparaître les lettres de l'alphabet en tant que « propriétés ». De la figure complète, extrayons les liens à l’anglais, d’une part, et au français, d’autre part :


Langues anglaise et française

Figure C (au seuil 0.2) :

  • L’anglais se distingue par de faibles occurrences (traits pointillés) des lettres J, Z et K.Un lien au gaélique apparaît.
  • Le français ne se distingue pas par des lettres remarquables, mais par une position équilibrée parmi les langues européennes

Conclusion de la comparaison pour ce cas d’école simple

L’iconographie des corrélations évite les inconvénients inhérents à la représentation hiérarchique de structures non hiérarchiques. Ici le tracé de structures bouclées est possible.

Croulant sous l’information, nous ressentons un besoin de mise en ordre ; mais quand nous l’aurons bien rangée en une multitude de listes emboîtées et sous emboîtées (comme dans la classification ascendante hiérarchique), nous aurons souvent reculé pour mieux sauter. Avec le logiciel CORICO, c’est l’élimination des redondances qui produit, « comme par miracle », la mise en ordre.

L'iconographie des corrélation se prête à une représentation plus réaliste d'une structure complexe organisée, tout en restant capable de détecter les structures arborescentes.

Voir aussi : Questions fréquentes.

D'autres exemples d'analyse de données avec le logiciel CORICO :

Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

Devis gratuit - Plans d'expériences économiques

Didacticiel logiciel corico

Formation logiciel corico

Demo logiciel corico

Economisez des années en Recherche et Développement : INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...