Analyse d’une réponse binaire avec CORICO

Lorsque la variable à expliquer n’a que deux modalités (par exemple, vrai/faux, oui/non, malade/pas malade, 1/0...), beaucoup de logiciels de statistiques proposent des méthodes différentes de celles utilisées pour les variables continues, et pas toujours d’emploi aisé (par exemple, régression logistique, arbre de décision…).

Dans le logiciel CORICO, l’introduction des « interactions logiques », permet de façon immédiate et facile, une même démarche pour les variables continues et pour les variables binaires.

Comparons, sur un exemple, trois approches disponibles dans CORICO : « Iconographie des corrélations », régression multiple et arbre de décision.

L’exemple de Quinlan (1993)

Il s’agit d’expliquer le comportement des individus par rapport à un jeu {jouer/ne pas jouer} à partir de données météorologiques :

Données de Quinlan : réponse binaire

1. Iconographie des corrélations

iconographie des corrélations: réponse binaire

La figure montre que le soleil, le vent et l’humidité sont des facteurs négatifs pour le jeu considéré, et qu’on pratique plutôt ce jeu par temps couvert.

2. Modèle avec interactions logiques

En plus des variables simples, le logiciel CORICO puise ici dans un vivier de 210 « interactions logiques » (14 interactions possibles par couple de variables), et retient les plus pertinentes.

La régression multiple classique donne un bon ajustement grâce aux interactions logiques et permet d’éviter le recours à la régression logistique (d'ailleurs difficile ici vu le faible nombre d'observations) :

Modèle de régression d'une réponse binaire


Graphe de la réponse binaire et de son modèle

Figure 2 : La superposition de ModèleJouer sur Jouer est presque parfaite (R2 ajusté = 0.999).

Graphe des termes du modèle

Figure 3 : Détail des trois premiers termes du modèle.

Chaque terme du modèle de CORICO explique le résidu non expliqué par les termes précédents :

On joue au jeu considéré (par ordre d’importance des trois premiers régresseurs) :

  • quand NON (humidité ET soleil), c’est-à-dire humidité faible OU soleil faible,
  • quand NON (vent ET pluie), c’est-à-dire vent faible OU pluie faible,
  • quand la température est faible, SI le soleil est fort.
  • Le modèle ne contredit pas la vue d’ensemble donnée par l’Iconographie des corrélations. Le modèle a un rôle prédictif.

    3. Segmentation et arbre de décision

    Une autre façon d’aborder le problème est la segmentation :

  • On cherche parmi toutes les variables, la variable X qui corrèle le mieux avec la réponse Y.
  • On partage les observations, rangées d'après les valeurs de X, en deux sous-groupes ou "segments" qui donnent les plus faibles variances intra groupes en Y, donc la plus grande variance inter groupe, car : Variance totale = Variance inter-groupe + Variance intra-groupe
  • Puis l'on réitère les opérations précédentes pour chacun des segments. Etc.
  • Critère d’arrêt : la segmentation s’arrête dans une branche de l’arbre si

  • Le nombre de niveaux demandé est atteint,
  • Le segment ne contient qu’un seul représentant,
  • La variable à expliquer est constante dans le segment, ou toutes les variables explicatives sont constantes.
  • 3.1 Segmentation sur les variables simples

    Classiquement, la segmentation est pratiquée sur les variables simples. Commençons par là.

    La figure suivante montre l’arbre entièrement déployé. Le groupe en surbrillance correspond à un temps non couvert, sans vent et sans soleil. Les éléments de ce groupe sont les numéros 12, 13, 14. Ils ont tous la valeur 1 pour « jouer » (colonne la plus à droite).

    Arbre de décision 1

    Mettons en surbrillance le groupe correspondant au temps couvert : ce sont les n° 6, 7, 8, 9 :

    Arbre de décision 2

    Un autre groupe correspond à un temps non couvert, sans vent, ensoleillé et non humide. Il ne comprend qu’un seul jeu (le n°5) :

    Arbre de décision 3

    Enfin, le dernier groupe qui contient un jeu (le n°1), correspond à un temps non couvert, venteux, ensoleillé et froid :

    Arbre de décision 4

    Tous les autres groupes contiennent des zéros (pas de jeu).

    Ainsi, les périodes de jeu sont dispersées dans 4 groupes. Il est difficile d’en tirer une conclusion concise.

    3.2 Les points faibles des arbres de décision

    A chaque étape, le critère de partition dépend des classes déjà obtenues ; deux individus dans des classes différentes ne sont plus comparés.

    Un autre reproche est l’incapacité, dans les algorithmes classiques (C4.5, CART, CHAID, etc.), à détecter les combinaisons de variables.

    C’est ici que les interactions logiques nous permettent d’aller plus loin.

    3.3 Segmentation sur variables simples et interactions logiques

    Paradoxalement, l'ajout des interactions logiques aux variables simples simplifie l'arbre de décision !

    l’arbre entièrement déployé contient moins de branches : un seul groupe suffit à expliquer tous les « jouer » = 1. En vertu des critères d’arrêt donnés plus haut, aucune des variables simples n’est apparue dans l’arbre de décision.

    Arbre de décision 5

    L’explication en terme météorologique concorde avec celle donnée au § 2 par la régression multiple : le groupe sans (humidité ET soleil) et sans (Vent ET pluie) contient les 9 observations avec jeu.

    L’arborescence est essentiellement descriptive.

    Conclusion de l'analyse d'une variable binaire

    L’usage des interactions logiques améliore et simplifie l’analyse des variables binaires aussi bien que des variables continues. En effet, on puise dans un plus grand vivier de variables explicatives. Les trois approches concordent dans leurs conclusions.

  • L’iconographie des corrélations donne une vue d'ensemble, dans un but exploratoire et explicatif.
  • La régression multiple a d’abord un but prédictif, cependant l’aspect intuitif des « interactions logiques » lui confère également un caractère explicatif.
  • La segmentation (arbre de décision) permet de classer les individus dans des groupes.
  • Voir aussi :


    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations