Un logiciel multidimensionnel en chinois

Corrélation « significative » ou corrélation « remarquable » ?


La notion de « signification statistique » est de plus en plus discutée dans la communauté scientifique. La significativité est relative à un modèle statistique spécifié mais souvent non observé dans la pratique.

Par suite « La signification statistique n’est pas équivalente à la signification scientifique, humaine ou économique » (R.L. Wasserstein et N.A. Lazar, « The ASA's Statement on p-Values: Context, Process, and Purpose », The American Statistician, vol. 70, no 2,‎ 2 avril 2016, p. 129–133).

Or c’est la signification scientifique, humaine ou économique qui nous importe. Comment y arriver ?


Peut-on parler de « corrélation significative » ?

Le poids des élèves

Considérons les poids de 8 élèves du collège, et leurs notes respectives en mathématique.

Le coefficient de corrélation est r(Poids, note) = 0.773

Cette valeur importante ne peut être expliquée par le hasard ou par des erreurs de mesures aléatoires :

  • Les élèves pèsent plusieurs dizaines de kilo ; l’erreur de la balance est seulement de quelques grammes.

  • L’exercice de mathématique, noté sur 20, comprend 20 questions, notées chacune 1 ou 0 (juste ou inexact) : l’erreur de notation est pratiquement exclue ou négligeable ici.

Le poids et la note ne sont donc pas « aléatoires » pour les 8 élèves choisis. Le professeur s’intéresse à ses élèves particuliers, sans préjuger de résultats hypothétiques sur une population plus vaste d’élèves.

Suffit-il de mieux nourrir les élèves pour obtenir une bonne note ?

Accorder une signification à ce coefficient de corrélation pris isolément, c’est supposer toutes choses égales par ailleurs, ou que les influences extérieures s’annulent les unes les autres, et renoncer à explorer toutes les pistes pouvant expliquer les notes des 8 élèves.

Si l’on peut parfois s’intéresser à une différence statistiquement significative entre deux moyennes (par exemple dans le cas d’une distribution gaussienne des mesures), cela a-t-il un sens de parler de corrélation significativement non nulle ?

  • La moyenne est une perte d’information, car elle remplace une série de mesures par un nombre unique. C’est une sorte de résumé, d’ailleurs souvent incorrect.

  • Le coefficient de corrélation au contraire, même nul, n’est pas un résumé ; c’est une information précise supplémentaire concernant le lien entre deux séries de mesures. Expliquons-nous.

La corrélation est un point de vue.

Madame X et Monsieur Y

Madame X, dans le brouillard, aperçoit deux ballons lumineux :

  • Oh ! dit-elle, les tailles des ballons sont corrélées négativement : quand l’un grossit, l’autre maigrit !

    La voix de Monsieur Y répond dans le brouillard :

  • Pas du tout ! les deux ballons sont corrélés positivement ! Ils grossissent ou maigrissent ensemble.

    Le brouillard se dégage. Madame X et Monsieur Y s’aperçoivent que chacun va et vient sur des planches à roulettes dont les trajectoires sont orthogonales.

    Quand Madame s’approche du ballon vert, il semble grossir et le rouge diminuer : la corrélation vaut -1. Quand Monsieur s’approche du ballon vert, il s’approche aussi du rouge, et tous deux semblent grossir : la corrélation vaut +1.

    En réalité, la taille des ballons reste constante. Dans l’absolu, il n’y a pas de corrélation. Les corrélations observées dépendent du point de vue. Si les planches à roulettes s’étaient déplacées sur une trajectoire oblique, la corrélation aurait eu une valeur intermédiaire.

    Faut-il conclure que le coefficient de corrélation est inutilisable ? Que sa valeur, forte ou faible, ne veut rien dire ?

    Oui, si le chiffre est isolé. Non, si l’on dispose des corrélations avec d’autres variables, car nous pouvons alors recouper les points de vue.

    Recouper les points de vue.

    Le poids, âge, assiduité

    En plus du poids et de la note, nous disposons de l’âge des élèves et de leur note d’assiduité. Nous aimerions savoir si la corrélation entre poids et note resterait forte, si tous les élèves avaient le même âge, ou si tous avaient la même assiduité. Malheureusement nous ne disposons que de 8 élèves, et ils ont tous un âge différent ! Comment faire ?

    Matrice de corrélation

    Il existe une formule mathématique qui, à partir des trois coefficients de corrélation r(Poids, Note), r(Poids, Age) et r(Age, Note), donne le coefficient de corrélation partielle entre Poids et Note si l’âge était resté constant (on se place du point de vue de l’âge) :

    r(Poids,Note /âge) = -0,08

    La corrélation a diminué drastiquement ! Elle est même légèrement négative : le lien entre le poids et la note n’est pas pertinent.

    Par contre la corrélation du poids avec l’âge reste forte, même si l’on se place à Note constante :

    r(Poids,Age /Note = 0.68

    De même la corrélation de la Note avec l’âge reste forte, même si l’on se place à Poids constante :

    r(Note,Age /Poids) = 0,71

    Concluons que les corrélations entre le poids et l’âge, ainsi qu’entre la note et l’âge sont des informations plus pertinentes (plus remarquables) que la corrélation 0,77 observée entre le poids et la note. Cette dernière information est redondante et découle de l’influence de l’âge à la fois sur la note et sur le poids.

    Qu’en est-il de la corrélation entre Poids et Note, si l’on se place à assiduité constante ?

    r(Poids,Note /Assiduité) = 0,92

    La valeur de la corrélation partielle a augmenté par rapport à la corrélation totale, car l’assiduité a une influence seulement sur la note et pas sur le poids ; donc, si on se place à assiduité constante, on voit mieux la corrélation entre Poids et Note, ce qui n'implique pas forcément sa pertinence.

    De même si l’on se place à Note constante, on renforce en valeur absolue, la corrélation négative entre Poids et Assiduité :

    r(Poids,Assiduité /Note) = -0,78

    Sachant que la formule mathématique du coefficient de corrélation est celle du cosinus, toute corrélation, même nulle, apporte une information précise : une distance angulaire.

    Voici les angles correspondants aux points de vue de l’âge et de l’assiduité :

    angles

    • Poids et note sont vus par l’âge sous un angle légèrement obtus, de cosinus quasi nul, légèrement négatif : l’âge sert d’intermédiaire entre poids et note. Il n’y a pas de lien direct entre poids et note.
    • Poids et note sont vus par l’assiduité sous un angle aigu, de cosinus proche de 1. De ce point de vue, Poids et Note semblent fortement corrélés, ce qui n'implique pas forcément un lien réel.
    • Poids et Assiduité sont vus par la note sous un angle obtus, de cosinus négatif.
    • Poids et Assiduité sont vus par l’âge sous un angle légèrement obtus, de cosinus quasi nul, légèrement négatif.
    • Etc.

    Les corrélations partielles autorisent de multiples points de vue ; et la confrontation des points de vue permet de lever les doutes sur les proximités réelles, avec une précision trigonométrique.

    Ainsi pouvons-nous juger du relief d’un paysage parce que la vision binoculaire présente chaque détail sous deux angles différents. Grâce au relief, nous connaissons que deux points qui semblaient proches sont en réalité éloignés l’un de l’autre.

    Corrélations « remarquables »

    Iconographie des Corrélations

    Considérée isolément, une corrélation même forte, n’apporte aucune information. Il faut tenir compte du contexte ; alors, même une corrélation nulle est une information précise (angle droit).

    Une corrélation sera dite « remarquable », si non seulement sa valeur absolue est supérieure à un certain seuil, mais si, de plus, toutes les corrélations partielles par rapport à chacune des autres variables sont aussi supérieures au seuil, en valeur absolue, et de même signe.

    La notion de « corrélation remarquable » requiert des informations sur le contexte, c’est-à-dire que le tableau de données contient d’autres variables, en plus des deux dont nous calculons la corrélation.

    Cette notion constitue la base de l’Iconographie des Corrélations. Un lien remarquable positif est représenté par un trait plein. Un lien remarquable négatif est représenté par un trait pointillé.

    Le choix du seuil

    Le choix du seuil s’apparente au réglage du volume sonore dans une chaîne Hifi. Il ne dépend pas de l’opinion d’un expert, mais du niveau de finesse requis à un moment donné par l’utilisateur. Le même utilisateur peut donc utiliser plusieurs seuils, et les résultats ne se contredisent pas.

    A noter que même au seuil nul, le lien entre Poids et Note n’est pas tracé, puisque il existe une corrélation partielle de signe opposé à celui de la corrélation totale.

    Un abus de langage : l'expression « corrélation linéaire »

    Ne pas confondre « corrélation », dont la mesure dépend du point de vue, et « relation » qui est un phénomène physique sous-jacent (un lien remarquable).

    Si Y= A+B+C+D+E+F+G, où A, B, C, D, E, F, G sont 7 variables indépendantes, la corrélation de Y est faible avec chacune des 7 variables ; et pourtant la relation de Y est strictement linéaire avec chacune d’entre-elles. La corrélation ne vaut 1 avec l’une d’elles que quand les 6 autres sont constantes, c’est-à-dire toutes choses égales par ailleurs.

    L’adjectif « linéaire » est inapproprié pour un cosinus (et donc pour un coefficient de corrélation), c’est la relation qui est linéaire ici. Et si le seuil est suffisamment bas, l’Iconographie des Corrélations donnera un lien avec chacune des 7 variables.

    La table de signification du coefficient de corrélation de Pearson, qui donne des valeurs critiques en fonction du nombre d’observations, n’est pas appropriée : des relations non pertinentes (non physiques, comme le lien du poids et de la note) seraient conservées à tort, tandis que des liens remarquables pourraient être écartés.

    Conclusion

    La statistique probabiliste s’est fortement développée depuis le 17 ième siècle, d’abord à partir de variables aléatoires (jeu de pile ou face, jeu de dés...). C’est pourquoi les chercheurs ont creusé les problèmes de la significativité des moyennes et les notions de distributions statistiques. Et, comme il y a énormément de choses à dire rien que sur une ou deux variables, ils ont abouti à une science extrêmement élaborée.

    Dans la pratique les variables influentes sont nombreuses : pour toute variation observée il existe une ou plusieurs causes, qu’une analyse multidimensionnelle non probabiliste des données disponibles (sans références à une population plus vaste) peut permettre de découvrir. Dès lors les tests de significativité, élaborés pour des variables aléatoires considérées isolément, et relatifs à des modèles spécifiés, sont rarement adaptés.

    La « crise de reproductibilité et de réplicabilité » de tant de résultats scientifiques, vient de ce que beaucoup se contentent de publier les « résultats positifs » par rapport au modèle spécifié, écartant les résultats « nuls » par rapport à la même hypothèse.

    Avant de s’aventurer dans les hypothèses, il convient de procéder à un état des lieux aussi exhaustif que possible : l’approche géométrique de la corrélation présentée ici offre une cartographie précise des données disponibles, par triangulation.

    On compare toujours avec profit les résultats de plusieurs études conduites de cette façon, même (et peut-être surtout) si les résultats sont différents, car ils reposent sur du réel.

    Comme l’ont souligné de nombreux auteurs, il est en effet dommage que des données de haute qualité, collectées à des coûts importants, restent en grande partie non exploitées, pour cause de « non significativité » vis-à-vis de modèles prématurés.

    Voir aussi :

    Un autre exemple d'iconographie des corrélation, la météo de Guyane

  • Devis gratuit - Plans d'expériences économiques

    Didacticiel logiciel corico

    Formation logiciel corico

    Demo logiciel corico

    Economisez des années en Recherche et Développement : INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...