Erreur induite par la moyenne
erreurs liées à la moyenne en 4 langues

L' erreur induite par la moyenne


Lorsqu’on compare plusieurs séries d’observations chiffrées, le calcul de la moyenne peut être un moyen de résumer l’information. Mais il ne faut pas en cacher les dangers lorsque l’on s’intéresse aux relations entre les variables.

Exemple

Données d'enquête brutes

On a interrogé quatre personnes à Mexico, et quatre personnes à Toronto, sur leur âge et le nombre de pizzas achetées dans le mois. Les données brutes de l’enquête sont rassemblées dans le tableau 1.

Le coefficient de corrélation entre l’âge et le nombre de pizzas pour les 8 mesures est négatif (-0.61). Il est également négatif séparément pour Mexico (-0.863) et pour Toronto (-0.905)

Conclusion : les « jeunes » achètent plus de pizza que les « vieux ».

Calculons maintenant les moyennes pour chacune des deux villes (Tableau 2).

Données d'enquête moyennes

Cette fois, il semble que les « jeunes » achètent moins de pizza : la corrélation entre l’âge et le nombre de pizzas est devenue positive (+1) !

Bien entendu, la corrélation calculée sur les données brutes est la plus sûre, car la moyenne mélange tout. Elle efface beaucoup d’informations. Ici, elle a inversé la relation.

Que se passe-t-il si l'on augmente l'échantillon de population?

On dira peut-être que l’échantillon est trop faible. Qu’aurait-on obtenu, si l’échantillon avait été un million de personnes dans chaque ville ?

Si l'on admet que :

  • les gens achètent plus de pizza à Toronto qu'à Mexico (où la tortilla est une sérieuse concurrente),
  • la population de Mexico est plus jeune qu’à Toronto,
  • les jeunes achètent plus souvent des pizzas.

Alors, nous aurions obtenu le même tableau moyen sur un échantillon d’un million de personnes dans chaque ville, donc une corrélation positive entre l’âge et le nombre de pizzas. C’est-à-dire l’inverse de la réalité.

Conclusion

Il est dangereux de calculer des corrélations à partir de moyennes, et c’est d’autant plus inutile que nous disposons des données brutes.

La relation est la seule réalité. La mesure est un intermédiaire pour découvrir les relations. La moyenne des mesures induit souvent une erreur d’analyse des données, dont les conséquences peuvent être fâcheuses en terme de décision.

Un autre exemple d’erreur de jugement

Croissance des plantes

Traçons le graphe des trois variables, rangées par parcelles:

Croissance des plantes selon les parcelles

Et voici les mêmes données dans un autre ordre :

Croissance des plantes selon l'engrais

Selon l'ordre selon lequel sont dessiné les graphes, on peut tirer des conclusions différentes. Comment éviter l'erreur d'interprétation ?

L'iconographie des corrélations : une analyse de données exhaustive

Appliquons l’iconographie des corrélations à notre tableau de données :

Croissance des plantes

L’iconographie des corrélations met en évidence sur un schéma unique la double influence de l’engrais et de la parcelle sur la croissance de la plante.

L’iconographie des corrélations est un outil d’autant plus sûr qu’on travaille directement sur les données brutes, et qu’on dispose de plus de variables. C’est aussi un moyen d’éliminer les « fausses bonnes corrélations ».

Voir aussi :

Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

Devis gratuit - Plans d'expériences économiques

Didacticiel logiciel corico

Formation logiciel corico

Demo logiciel corico

Economisez des années en Recherche et Développement : INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...