Analyse de données en 4 langues

Iconographie des corrélation : laminoir

Questions sur l'analyse de données avec CORICO


Qu'est-ce que "CORICO" ? ...


Comment choisir le bon plan d’expériences ? ...


Comment choisir le bon plan d’expériences ?

Des résultats décevants d’un plan d’expériences peuvent découler de plusieurs causes :

  • oubli d’intégrer au plan une variable influente ;
  • domaine expérimental mal choisi ;
  • nombre de niveaux d’un facteur insuffisant, par rapport aux exigences de l’étude ;
  • non prise en compte d’un facteur non contrôlable;
  • modèle simpliste.

Le logiciel CORICO vous propose des plans « sans risque » (aide au choix du plan), et des modèles réalistes.


Plus il y a de paramètres, plus l'interprétation est facile ? ...


Plus il y a de paramètres, plus l'interprétation des corrélations est facile ?

Oui. Si plusieurs variables interviennent, les considérer séparément ou deux à deux est une erreur ! Les statistiques élaborées pour les séries numériques unidimensionnelles et bidimensionnelles ne sont plus adaptées.

Les élèves de toutes les classes du collège font le même exercice de mathématique. Nous connaissons leurs poids, leurs âges et leurs notes à cet exercice. Faut-il se contenter de la moyenne des notes du collège ? Si la répartition n'est pas normale (courbe "gaussienne" en cloche), la moyenne ne correspond à aucun élève particulier.

Or on observe une corrélation entre le poids et la note ! Comment l'interpréter ?

Les élèves les plus lourds sont les plus âgés. Et les plus âgés ont les meilleures notes. Tout s'explique : la corrélation poids-note est une "fausse bonne corrélation". Elle découle de la corrélation poids-âge et de la corrélation âge-note. C'est par l'introduction de l'âge que tout s'éclaire.

Quelquefois, beaucoup plus de paramètres seront nécessaires pour élucider notre problème. Mais, avec le logiciel d'analyse de données mulitivariées CORICO, ce n'est pas plus compliqué. Bien au contraire ! Car c'est en recoupant des informations d'origines diverses que l'on progresse en analyse de données. Ainsi "l'iconographie des corrélations" présente une forte résistance au bruit.


Une avancée majeure en analyse multifactorielle ? ...


Une avancée majeure en analyse multifactorielle ?

Oui. Le tracé schématique des liens pertinents sur une sphère unique ouvre à l'analyse de données des domaines dont elle était bannie jusqu'ici. C'est une aide à l'interprétation.

Analyse en composante principale

En effet l'analyse factorielle (par exemple ACP ci-contre, ou AFC, AFCM,...) suppose que le grand nombre n de variables étudiées peut être expliqué par un petit nombre de facteurs cachés. Les variables (points dans l'espace à n dimensions), sont projetées sur les plans définis par les axes factoriels. Ce procédé soulève plusieurs difficultés :

  • Il n'est pas toujours possible de réduire le phénomène à 3 facteurs. Si trop de facteurs sont requis, on aura reculé pour mieux sauter.
  • Même un statisticien chevronné n'arrive pas toujours à donner un nom à ces axes.
  • Les données doivent être homogènes et bien choisies. Une variable sans rapport avec le problème (ou erronée), va déplacer les axes et, par suite, biaiser toute l'interprétation, y compris celle des variables pertinentes.
  • Il n'est pas possible de mêler variables qualitatives et variables quantitatives. D'où l'obligation de recoder certaines données avec parfois une perte de précision.
  • L'hypothèse du "petit nombre" de facteurs cachés peut conduire à une approche "caricaturale" ou réductrice des phénomènes.
  • Il faut souvent compléter l'analyse avec une classification hiérarchique.

Comportement alimentaire en Europe

Avec le logiciel d'analyse de données CORICO, ces difficultés sont court-circuitées : en Iconographie des Corrélations, il n'y a pas d'axe factoriel. (exemple) Quelle que soit la dimension n, vous n'êtes pas soumis à l'obligation d'expliquer des axes avant d'interpréter les données. L'introduction d'une variable fantaisiste, ou erronée, ne biaise pas l'interprétation des autres variables. Le tracé des "liens remarquables" lève toute ambigüité.

Alors que l'analyse factorielle réduit la dimension sans forcément réduire les redondances, l'iconographie des corrélations supprime les redondances sans réduire la dimension (c'est à dire sans perdre d'information).

Vous pouvez mélanger des variables qualitatives et quantitatives, qui de surcroît n'ont pas besoin d'être homogènes. Par exemple: la satisfaction clientèle dépend à la fois de considérations techniques et de considérations socio-démographiques. Les aborder séparément, c'est manquer la solution.

Le schéma de CORICO constitue aussi une classification, qui n'est pas forcément hiérarchique mais peut être bouclée, ou uniformément répartie, etc...(exemple)


Le schéma des liens est-il facile à présenter en public ? ...


Le schéma des liens est-il facile à présenter ?

Oui, dans n’importe quel domaine, la figure est toujours bien reçue dans les colloques, car aussitôt comprise par tous. La représentation est aisée à expliquer en quelques mots, même à des interlocuteurs non prévenus :

Visualisation par iconographie des corrélations

    - La figure présente seulement les liens « remarquables », c’est-à-dire les liens directs qui ne peuvent être expliqués par une autre variable.

    - Un trait plein indique une corrélation positive « remarquable ».

    - Un trait pointillé indique une corrélation négative « remarquable ».

    - L’absence de lien est en soi une information.

    - Il est possible de s’affranchir d’une influence évidente (par exemple l’influence de la pluie), pour mieux souligner d'autres influences.

De même qu’il est inutile de recourir aux lois de l’optique pour présenter une photographie, de même vous pouvez expliquer le schéma des liens sans aucune formule mathématique : purement géométrique, la méthode ne repose sur aucune distribution de probabilité, et, par suite, ne dépend que des données.

Un bon schéma vaut mieux qu'un long discours. Analyse de la figure ci-dessus.


Pourquoi acheter un logiciel quand il y a des logiciels gratuits ? ...


Pourquoi acheter un logiciel quand il y a des logiciels gratuits ?

« Dans la recherche publique on n’est pas pressé ; on n’a rien à vendre ; alors pourquoi ne pas nous contenter de logiciels gratuits (R, MATLAB, etc…) Ainsi les étudiants peuvent travailler chez eux... »

Les logiciels gratuits ne comportent pas l’iconographie des corrélations et les interactions logiques, qui évitent d’être submergés par une multitude de graphiques. Les étudiants ont tout à gagner à connaître aussi des logiciels qu’ils pourront utiliser plus tard dans leur métier.

Avec CORICO, vous n’avez pas besoin d’un langage de commande, il suffit de cliquer avec sérénité. Vous gagnez du temps lors de l’apprentissage, et ensuite, lors de l’utilisation. En outre, la figure trouvée par CORICO peut être récupérée avec le logiciel R.

La licence de CORICO est perpétuelle: vous n'êtes pas obligé d'acheter une mise à jour chaque année.

CORICO s’adresse-t-il seulement aux entreprises privées qui produisent beaucoup de données et veulent des résultats rapides ? Pas seulement !

La rapidité d’analyse est nécessaire dans la recherche publique également : par exemple en biologie, agronomie, océanographie, etc., on fait chaque année une ou plusieurs campagnes de mesure, et souvent l’on repart pour une nouvelle campagne coûteuse, avant même d’avoir analysé complètement les résultats précédents, au risque de mal configurer les futures campagnes de mesure !

De par sa visualisation claire, intuitive et fouillée, l’iconographie des corrélations vous aide à mieux expliquer vos données, et à prendre les bonnes décisions. De même les modèles de régression non postulés avec interactions logiques, notions conformes au bon sens, sont plus explicatifs que des modèles polynomiaux ou PLS, purement analytiques. Avec CORICO, la génération et l’analyse des plans d’expériences sont simples et faciles.


Pourquoi tous les logiciels ne proposent pas cette visualisation ? ...


Pourquoi tous les logiciels ne proposent pas cette visualisation

A ce jour, CORICO est le seul logiciel d’analyse de donnée à intégrer l’iconographie des corrélations, dont l’algorithme est pourtant simple.

Pourquoi ?

La difficulté ne réside pas dans le fait de tracer ou non un lien entre deux variables, mais dans la position des points : Il s’agit d’éviter au maximum le croisement des lignes qui rendent le schéma illisible. Dix-sept ans d’améliorations constantes dans la recherche et l’industrie ont été nécessaires pour obtenir la qualité de visualisation disponible aujourd’hui. Aussi l’interprétation du schéma est simple, car elle dépend essentiellement des liens tracés, et non des positions.


Mes données sont trop compliquées, trop parcellaires ...


Mes données sont trop compliquées, trop parcellaires

« J’ai plein de paramètres ; il y a beaucoup d’empirisme. D’ailleurs, il faudrait mesurer d’autres paramètres…. ».

Bien sûr, on peut toujours faire mieux, mais CORICO est là pour vous aider à tirer le meilleur parti des données disponibles, même si elles sont peu nombreuses. Toutes ces informations que vous avez déjà rassemblées, pourquoi ne pas les exploiter au mieux ?


Fait-on appel aux réseaux bayésiens ? ...


Fait-on appel aux réseaux bayésiens ?

Non. L'analyse de données multivariées du logiciel CORICO repose sur les corrélations partielles.

La puissance de la méthode vient de son caractère non probabiliste. L’absence d’hypothèse sur la distribution de probabilité assure la généralité de la méthode, et en facilite l'accès au non statisticien.

L’étude simultanée des variables qualitatives et quantitatives n’exige aucun recodage des variables continues sous forme discrète. Aucune information n'est perdue, et l'on gagne en précision.


L'analyse des corrélations est-elle rigoureuse ? ...


Une analyse rigoureuse des corrélations ?

Oui. Une corrélation, même statistiquement significative, n'est pas forcément pertinente si elle a lieu par l'intermédiaire d'une tierce variable. Prise pour argent comptant, elle peut conduire à des erreurs de décision. Inversement, une variable qui dépend de plusieurs autres sera faiblement corrélée avec chacune d'entre-elles.

Grâce aux corrélations partielles, le logiciel d'analyse de données multivariées CORICO vérifie chaque corrélation, et ne trace un lien que s'il ne peut être expliqué par aucune des autres variables disponibles. Inversement, il peut trouver digne d'attention une relation d'abord considérée statistiquement comme non significative. Seules les redondances sont éliminées. L'agencement d'ensemble de tous ces liens remarquables se traduit par un schéma synthétique.

D'habitude, la probabilité que l'on a de se tromper lorsqu'on calcule une moyenne repose sur des "tests d'hypothèse".

CORICO exploite tous les indices en votre possession sans recourir à des moyennes. Ainsi, assuré d'une plus grande rigueur et débarassés du casse tête des tests d'hypothèses, vous accédez aux événements rares (points atypiques) comme aux lois générales

CORICO innove aussi dans sa stratégie face à l'erreur : elle n'est pas fondée sur la répétition mais sur le recoupement. On évite ainsi beaucoup de fausses interprétations.


Les liens de corrélation sont-ils plus lisibles ? ...


Les liens de corrélation sont-ils plus lisibles ?

Oui. Trouver les liens ne suffit pas. Si les variables d'un espace à n dimensions sont simplement projetées, même sur le meilleur plan possible, la figure est innextricable.

Le principe de représentation des liens sur une sphère, rodé au fil des ans, a atteint une qualité proche de la perfection. Pour vous l'opération est totalement transparente.

CORICO simplifie sans caricaturer : des conventions simples, facilement retenues (trait plein = corrélation positive, trait pointillé = corrélation négative), assurent au schéma une lisibilité sans équivalent.

CORICO ne se restreint pas à un cadre stéréotypé. Rien ne ressemble plus à un camembert qu'un autre camembert, à un histogramme qu'un autre histogramme, à un nuage de points qu'un autre nuage de points, à une arborescence qu'une autre arborescence. CORICO est plus lisible car il se plie à la réalité; il accepte des figures infiniment variées, et se prête aux classifications arborescentes, aussi bien que bouclées ou continûment réparties.

Fonctionnel et intuitif, le logiciel d'analyse de données CORICO vous ouvre le vaste domaine des variables qui ne sont pas liées par une formule mathémathique mais par une organisation.


Les schémas de corrélations sont-ils plus fouillés ? ...


Les schémas de corrélations sont-ils plus fouillés ?

Oui. CORICO ne sert pas seulement à vous conforter dans ce que vous saviez déjà :

Le logiciel d'analyse de données multivariée CORICO est un outil de découverte. Le retrait des composantes évidentes dévoile les aspects secondaires, souvent essentiels pour l'interprétation.

CORICO dessine les articulations naturelles et détecte également les conjonctions de phénomènes (ET, OU, OU-EXCLUSIF, SI, NI...), les modulations et les résonances. Votre attention est attirée sur les lois générales et sur les événement rares.


L'analyse des corrélations est-elle plus rapide ? ...


L'analyse des corrélations est-elle plus rapide ?

Oui. Car elle vous simplifie la vie :

CORICO est réellement multidimensionnel et synthétique: Vous n'avez pas à consulter une multitude de plans ou de tableaux bidimensionnels, au risque d'oublier le premier quand vous arrivez au dernier.

Cette rapidité d’analyse autorise une représentation animée quand la structure de corrélations évolue au cours du temps.

Econome en temps et en essais, CORICO peut signaler, sur la même figure, des effets croisés et des conjonctions remarquables.

Mais le logiciel d'analyse de données CORICO n'offre pas seulement un gain de temps et une sécurité accrue dans l'analyse multivariée des résultats, il révèle souvent des particularités essentielles des données qui auraient échappé sans lui.


Le schéma des corrélations est-il objectif ? ...


Le schéma des corrélations est-il objectif ?

Oui. Car il ne fait pas d'hypothèse sur la nature des données, gaussiennes ou non, quantitatives ou qualitatives, stationnaires ou non, aléatoires ou contrôlées, homogènes ou pas. Ainsi, vous n'aurez pas recours à un vocabulaire mathématique étranger aux données qui, parfois, nous fait perdre de vue l'objet même de l'analyse. Le logiciel CORICO vous donne accès à une analyse de données multivariée intuitive, au plus près du réel.


CORICO est-il universel ? ...


CORICO est-il universel ?

Oui. Car il peut mélanger des variables de tous types (voir plus haut), que vous ayez peu ou beaucoup de données, que vous soyez industriel ou universitaire, statisticien ou non.

Le logiciel d'analyse de données CORICO s'applique entre autres aux dépouillement d'essais et au réglage des chaînes de fabrication. Il se prête particulièrement à leur analyse sous des conditions variées, le plus souvent subies. La compréhension rapide des effets respectifs des multiples facteurs en fait un atout pour la réduction des coûts.

Une approche multicausale : en médecine par exemple, l’approche des pathologies se doit d’être globale et non sélective (paramètres cliniques, biologiques, physique, qualitatif ou quantitatifs) ; elle peut aider à trouver des critères moins invasifs, moins gênant pour le patient. Comprendre les processus qui conduisent à des lésions peut avoir des retombées sur l’explication d’autres maladies.

C'est un moyen d'expertise pluridisciplinaire (industrie, géologie, géophysique, géostatistique, climatologie, planétologie, système solaire, microgravité, spectrométrie de masse, mécanique des sols, archéologie, économétrie, gestion, biologie, agroalimentaire...). Informations de terrain et données indirectes, éventuellement qualitatives, peuvent être combinées et étayer votre décision (enquêtes, qualité, lean sigma, marketing, études de marché par observation ou par expérimentation, plan d'expérience, études d'impact, essais non destructifs, analyse sensorielle, analyse comportementale, sondages, états des lieux, analyse critique des risques, analyse de l'échec, analyse des erreurs, écotoxycologie, prévention, épidémiologie, recherche médicale, essais cliniques, biodiversité multifactorielle, QSAR, optimisation multicritère, analyse rétrospective des données, indicateurs clefs de performance (KPI), renforcer l'impact visuel des tableaux de bord stratégiques...).


Est-ce un outil presse-bouton ? ...


Est-ce un outil presse-bouton ?

Non.

CORICO n'est pas fait pour réduire la force de votre attention. Au contraire, ce logiciel d'analyse de données attire l'attention sur les particularités des données, et vous pousse à réfléchir sur la manière de mieux les aborder.


CORICO est-il une boite noire ? ...


CORICO est-il une boite noire ?

Non.

Un module pédagogique, ANNA, vous permet de retrouver vous même, de façon interactive, les résultats de CORICO qui vous semble par trop surprenants. Vous vérifiez sans peine pourquoi le logiciel a (ou n'a pas) tracé un lien. C'est le moyen de détecter très vite des erreurs de saisies dans les données, et , bien sûr, de reprendre confiance en vous lorsqu'une découverte inattendue vous paraît d'abord trop belle pour être vraie !


Des exemples ? ...


Deux exemples d'analyse des corrélations

Iconographie des corrélations

1 - Ces 24 variables ne sont pas gaussiennes. Aucune n'est liée à une autre par une relation linéaire. Leurs moyennes, toutes égales, ne permettent pas de les distinguer. Nous ne connaissons pas la formule mathématique qui les lie. Pourtant, elles forment, ensemble, la structure de relations organisées de la figure ci-contre. Rien d'artificiel (axe ou projection) ne vient obscurcir ou embrouiller ce schéma entièrement "dirigé par les données".

Gain de poids des animaux

2 - On recherche, parmi 5 variables, ce qui influence le plus le gain de poids des animaux :

Les résultats de l'expérience sur 30 animaux sont rassemblés dans un tableau comportant 30 lignes et 6 colonnes (dose, poids initial, boeuf, porc, céréales et gain de poids). Les trois types d'aliments qui sont proposées (boeuf, porc et céréales), peuvent différer selon l'animal. Mutuellement exclusifs, ils sont négativement corrélés (traits pointillé sur le schéma). Les liens positifs du schéma (traits pleins) révèlent l'incidence du poids initial de l'animal, de la dose de nourriture et des protéines de boeuf. Mais la variable " dose &- céréales " fabriquée par le programme, souligne l'importance de la conjonction d'une forte dose d'aliment et de protéines sans céréales (à savoir boeuf ou porc). La figure met en jeu des variables qualitatives (boeuf, porc et céréales) et des variables quantitatives (dose et poids); elle demeure cependant très claire.

Le gain de poids n'est pas forcément un critère de qualité. Mais le principe d'analyse multivariée est le même si vous ajoutez des variables indicatrices de la qualité.

Voir un exemple détaillé d'analyse multidimensionnelle.


Régression multiple : où est le plus de CORICO ? ...


Régression multiple : où est le plus de CORICO ?

Les modèles de régression multiple avec le logiciel d'analyse de données CORICO présentent les avantages suivants:

  • Simplicité de mise en oeuvre: vous n'avez pas besoin de postuler la forme du modèle.
  • Sélection des termes du modèle par importance décroissante.
  • Problèmes de multicolinéarité évités.
  • Possibilité d'avoir plus de variables que d'observations.
  • Modèles parcimonieux.
  • Modèle plus robustes et prédictifs grâce aux interactions logiques.
  • La même méthode s'applique, de façon tout aussi simple, à la décomposition fine des séries temporelles.

    Voir des exemples de modèles.


Doit-on recourir à la méthode PLS (Partial Least Squares) ? ...


Doit-on recourir à la méthode PLS (Partial Least Squares) ?

Cela n'est pas nécessaire puisque (voir ci-dessus) la méthode CORICO est utilisable

  • même en présence d'un grand nombre de variables présentant des colinéarités,
  • même si le nombre de variables est supérieur au nombre d'observations.

Les méthodes basées sur la projection du nuage de points sur un plan factoriel (ACP, AFCM, PLS,…) souffrent d’un manque de stabilité : les axes factoriels dépendants du choix des variables, une variable erronée ou hors sujet peut fausser l’interprétation. Cet inconvénient oblige souvent à réduire le nombre de variables, au risque de perdre des informations essentielles.

Au contraire l’iconographie des corrélations est robuste : l’introduction d’une variable fantaisiste a en général peu d’incidence sur le reste du schéma. Par ailleurs la méthode met en évidence les valeurs aberrantes.


Quelle différence avec les SEM (Structural Equation Modeling) ? ...


Quelle différence avec les SEM (Structural Equation Modeling) ?

« L’iconographie des Corrélations » est différente des « Structural equation modeling » (SEM).

  • Les SEM ( entre autres LISREL et PLS-Path Analysis) font l’hypothèse qu’il existe des variables latentes inobservées qui expliquent les variables observées. Les SEM testent ces hypothèses (maximum de vraisemblance, chi-2, etc.), et cherchent quelles variables observées sont de bons indicateurs des variables inobservées supposées. Les SEM doivent poser au départ un modèle structurel des relations cause effet (contenu dans le path diagram). Le modélisateur postule a priori des chemins. Il doit donc rendre compte des raisons théoriques d’un tel choix. Au moment d’interpréter il faut tester les hypothèses pour déterminer l’ajustement du modèle théorique aux données. Il y a beaucoup de discussions parmi les chercheurs sur la taille idéale de l’échantillon.
  • L’iconographie des Corrélations, méthode exploratoire purement géométrique, ne fait pas d’hypothèse sur des variables latentes, ni sur les relations cause effet. Le graphe obtenu est tiré directement des données disponibles et se « moule » sur elles, quelle que soit la taille de l’échantillon, sans recourir à un modèle a priori supposé. C’est une « photographie » des données observées. Il n’y a donc pas d’ajustement à tester. Le schéma obtenu est un point d’appui visuel pour l’interprétation des données particulières considérées, et pour la découverte éventuelle de faits inattendus.


CORICO est-il l'un des outils du Big Data ? ...


CORICO est-il l'un des outils du Big Data ?

Oui, le logiciel d'analyse de données CORICO fait partie des outils du "Big Data". C'est le cas si vos données peuvent être présentées sous la forme d'un tableau de données avec variables quantitatives ou qualitatives.

Les entreprises sont en train de prendre conscience de l'extraordinaire potentiel économique de leurs données. Exploitées à bon escient, elle peuvent apporter des gains métier considérables.

Le concept de "big data" en est venu en effet à désigner non plus la masse de données en constante inflation, mais un mode d’exploitation.

Le big data peut mener sur une fausse piste si les données sont mal utilisées ou mal comprises. Dépourvu de toute hypothèse, le logiciel CORICO nous aide à ne pas utiliser les données pour prouver ce qu’on pense déjà savoir.

Les faits sont l'unique porte d'entrée vers la compréhension de vos données. CORICO transforme des tableaux rébarbatifs en schémas intuitifs connectés au réel.


Suite des questions ... Bibliographie...

Exercice...

Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

Devis gratuit - Plans d'expériences économiques

Didacticiel logiciel corico

Formation logiciel corico

Demo logiciel corico

Economisez des années en Recherche et Développement : INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...