Comment lutter contre l'erreur ? ...
On passe souvent plus de temps à nettoyer les données qu'à les analyser : erreur de saisie, valeur manquante, faute d’orthographe, unités de mesures différentes, contradiction, valeurs aberrantes…
En phase d'analyse, on trouve souvent de nouvelles erreurs, et il faut revenir au nettoyage.
Même dans un tableau de données bien propres, l’erreur peut cependant résulter
Calculer la moyenne, n’est pas le bon moyen de lutter contre le bruit. Ce n’est qu’un pis-aller lorsque l’on ne dispose pas d’information sur le contexte des mesures. La moyenne est même souvent une source d’erreur d’interprétation.
Le bruit est constitué d’une multitude d’influences ignorées sur la variable étudiée. On peut donc lutter contre le bruit en luttant contre l’ignorance du contexte. C’est-à-dire en multipliant les sources d’information qualitatives ou quantitatives. C’est l’un des objectifs de l’analyse multivariée, et particulièrement de l'iconographie des corrélations.
C’est aussi un moyen de s’affranchir des biais, c’est-à-dire des erreurs systématiques.
Paradoxalement, l’analyse multivariée, même quand le nombre d'observations par variable est faible, est d’un usage plus facile et plus naturel que l’analyse univariée ou bivariée.
L’Iconographie des Corrélations approche la vérité par la confrontation des points de vue.
Poser la question « Que se passe-t-il si telle variable reste constante ? », c’est se placer du point de vue de cette variable. Et plus nous avons de variables relatives au contexte plus nous disposons de points de vue.
Comment choisir le bon plan d’expériences ? ...
Des résultats décevants d’un plan d’expériences peuvent découler de plusieurs causes :
Voir ici : Comment choisir un plan d'expériences adapté.
Plus il y a de paramètres, plus l'interprétation est facile ? ...
Oui. Si plusieurs variables interviennent, les considérer séparément ou deux à deux est une erreur ! Les statistiques élaborées pour les séries numériques unidimensionnelles et bidimensionnelles ne sont plus adaptées.
Les élèves de toutes les classes du collège font le même exercice de mathématique. Nous connaissons leurs poids, leurs âges et leurs notes à cet exercice. Faut-il se contenter de la moyenne des notes du collège ? Si la répartition n'est pas normale (courbe "gaussienne" en cloche), la moyenne ne correspond à aucun élève particulier.
Or on observe une corrélation entre le poids et la note ! Comment l'interpréter ?
Les élèves les plus lourds sont les plus âgés. Et les plus âgés ont les meilleures notes. Tout s'explique : la corrélation poids-note est une "fausse bonne corrélation". Elle découle de la corrélation poids-âge et de la corrélation âge-note. C'est par l'introduction de l'âge que tout s'éclaire.
Quelquefois, beaucoup plus de paramètres seront nécessaires pour élucider notre problème. Mais, avec le logiciel d'analyse de données mulitivariées CORICO, ce n'est pas plus compliqué. Bien au contraire ! Car c'est en recoupant des informations d'origines diverses que l'on progresse en analyse de données. Ainsi "l'iconographie des corrélations" présente une forte résistance au bruit.
Une avancée majeure en analyse multifactorielle ? ...
Oui. Le tracé schématique des liens pertinents sur une sphère unique ouvre à l'analyse de données des domaines dont elle était bannie jusqu'ici. C'est une aide à l'interprétation.
En effet l'analyse factorielle (par exemple ACP ci-contre, ou AFC, AFCM,...) suppose que le grand nombre n de variables étudiées peut être expliqué par un petit nombre de facteurs cachés. Les variables (points dans l'espace à n dimensions), sont projetées sur les plans définis par les axes factoriels. Ce procédé soulève plusieurs difficultés :
Avec le logiciel d'analyse de données CORICO, ces difficultés sont court-circuitées : en Iconographie des Corrélations, il n'y a pas d'axe factoriel. (exemple) Quelle que soit la dimension n, vous n'êtes pas soumis à l'obligation d'expliquer des axes avant d'interpréter les données. L'introduction d'une variable fantaisiste, ou erronée, ne biaise pas l'interprétation des autres variables. Le tracé des "liens remarquables" lève toute ambigüité.
Alors que l'analyse factorielle réduit la dimension sans forcément réduire les redondances,l'iconographie des corrélations supprime les redondances sans réduire la dimension (c'est à dire sans perdre d'information).
Vous pouvez mélanger des variables qualitatives et quantitatives, qui de surcroît n'ont pas besoin d'être homogènes. Par exemple: la satisfaction clientèle dépend à la fois de considérations techniques et de considérations socio-démographiques. Les aborder séparément, c'est manquer la solution.
Le schéma de CORICO constitue aussi une classification,qui n'est pas forcément hiérarchique mais peut être bouclée, ou uniformément répartie, etc...(exemple)
Le schéma des liens est-il facile à présenter en public ? ...
Oui, dans n’importe quel domaine, la figure est toujours bien reçue dans les colloques, car aussitôt comprise par tous. La représentation est aisée à expliquer en quelques mots, même à des interlocuteurs non prévenus :
De même qu’il est inutile de recourir aux lois de l’optique pour présenter une photographie, de même vous pouvez expliquer le schéma des liens sans aucune formule mathématique : purement géométrique, la méthode ne repose sur aucune distribution de probabilité, et, par suite, ne dépend que des données.
Un bon schéma vaut mieux qu'un long discours. Analyse de la figure ci-dessus.
Pourquoi acheter un logiciel quand il y a des logiciels gratuits ? ...
« Dans la recherche publique on n’est pas pressé ; on n’a rien à vendre ; alors pourquoi ne pas nous contenter de logiciels gratuits (R, MATLAB, etc…) Ainsi les étudiants peuvent travailler chez eux... »
Les logiciels gratuits ne comportent pas l’iconographie des corrélations et les interactions logiques, qui évitent d’être submergés par une multitude de graphiques. Les étudiants ont tout à gagner à connaître aussi des logiciels qu’ils pourront utiliser plus tard dans leur métier.
Avec CORICO, vous n’avez pas besoin d’un langage de commande, il suffit de cliquer avec sérénité. Vous gagnez du temps lors de l’apprentissage, et ensuite, lors de l’utilisation. En outre, la figure trouvée par CORICO peut être récupérée avec le logiciel R.
La licence de CORICO est perpétuelle: vous n'êtes pas obligé d'acheter une mise à jour chaque année.
CORICO s’adresse-t-il seulement aux entreprises privées qui produisent beaucoup de données et veulent des résultats rapides ? Pas seulement !
La rapidité d’analyse est nécessaire dans la recherche publique également : par exemple en biologie, agronomie, océanographie, etc., on fait chaque année une ou plusieurs campagnes de mesure, et souvent l’on repart pour une nouvelle campagne coûteuse, avant même d’avoir analysé complètement les résultats précédents, au risque de mal configurer les futures campagnes de mesure !
De par sa visualisation claire, intuitive et fouillée, l’iconographie des corrélations vous aide à mieux expliquer vos données, et à prendre les bonnes décisions. De même les modèles de régression non postulés avec interactions logiques, notions conformes au bon sens, sont plus explicatifs que des modèles polynomiaux ou PLS, purement analytiques. Avec CORICO, la génération et l’analyse des plans d’expériences sont simples et faciles.
D'ailleurs, il existe une version "Etudiant" gratuite de CORICO !
Pourquoi tous les logiciels ne proposent pas cette visualisation ? ...
A ce jour, CORICO est le seul logiciel d’analyse de donnée à intégrer l’iconographie des corrélations, dont l’algorithme est pourtant simple.
Pourquoi ?
La difficulté ne réside pas dans le fait de tracer ou non un lien entre deux variables, mais dans la position des points : Il s’agit d’éviter au maximum le croisement des lignes qui rendent le schéma illisible. Dix-sept ans d’améliorations constantes dans la recherche et l’industrie ont été nécessaires pour obtenir la qualité de visualisation disponible aujourd’hui. Aussi l’interprétation du schéma est simple, car elle dépend essentiellement des liens tracés, et non des positions.
Mes données sont trop compliquées, trop parcellaires ...
« J’ai plein de paramètres ; il y a beaucoup d’empirisme. D’ailleurs, il faudrait mesurer d’autres paramètres…. ».
Bien sûr, on peut toujours faire mieux, mais CORICO est là pour vous aider à tirer le meilleur parti des données disponibles, même si elles sont peu nombreuses. Toutes ces informations que vous avez déjà rassemblées, pourquoi ne pas les exploiter au mieux ?
Fait-on appel aux réseaux bayésiens ? ...
Non. L'analyse de données multivariées du logiciel CORICO repose sur les corrélations partielles.
La puissance de la méthode vient de son caractère non probabiliste. L’absence d’hypothèse sur la distribution de probabilité assure la généralité de la méthode, et en facilite l'accès au non statisticien.
L’étude simultanée des variables qualitatives et quantitatives n’exige aucun recodage des variables continues sous forme discrète. Aucune information n'est perdue, et l'on gagne en précision.
L'analyse des corrélations est-elle rigoureuse ? ...
Oui. Une corrélation, même statistiquement significative, n'est pas forcément pertinente si elle a lieu par l'intermédiaire d'une tierce variable. Prise pour argent comptant, elle peut conduire à des erreurs de décision. Inversement, une variable qui dépend de plusieurs autres sera faiblement corrélée avec chacune d'entre-elles.
Grâce aux corrélations partielles, le logiciel d'analyse de données multivariées CORICO vérifie chaque corrélation, et ne trace un lien que s'il ne peut être expliqué par aucune des autres variables disponibles. Inversement, il peut trouver digne d'attention une relation d'abord considérée statistiquement comme non significative. Seules les redondances sont éliminées. L'agencement d'ensemble de tous ces liens remarquables se traduit par un schéma synthétique.
D'habitude, la probabilité que l'on a de se tromper lorsqu'on calcule une moyenne repose sur des "tests d'hypothèse". Car la moyenne génère ses propres erreurs.
CORICO exploite tous les indices en votre possession sans recourir à des moyennes. Ainsi, assuré d'une plus grande rigueur et débarassés du casse tête des tests d'hypothèses, vous accédez aux événements rares (points atypiques) comme aux lois générales
CORICO innove aussi dans sa stratégie face à l'erreur : elle n'est pas fondée sur la répétition mais sur le recoupement. On évite ainsi beaucoup de fausses interprétations.
Les liens de corrélation sont-ils plus lisibles ? ...
Oui. Trouver les liens ne suffit pas. Si les variables d'un espace à n dimensions sont simplement projetées, même sur le meilleur plan possible, la figure est innextricable.
Le principe de représentation des liens sur une sphère, rodé au fil des ans, a atteint une qualité proche de la perfection. Pour vous l'opération est totalement transparente.
CORICO simplifie sans caricaturer : des conventions simples, facilement retenues (trait plein = corrélation positive, trait pointillé = corrélation négative), assurent au schéma une lisibilité sans équivalent.
CORICO ne se restreint pas à un cadre stéréotypé. Rien ne ressemble plus à un camembert qu'un autre camembert, à un histogramme qu'un autre histogramme, à un nuage de points qu'un autre nuage de points, à une arborescence qu'une autre arborescence. CORICO est plus lisible car il se plie à la réalité; il accepte des figures infiniment variées, et se prête aux classifications arborescentes, aussi bien que bouclées ou continûment réparties.
Fonctionnel et intuitif, le logiciel d'analyse de données CORICO vous ouvre le vaste domaine des variables qui ne sont pas liées par une formule mathémathique mais par une organisation.
Les schémas de corrélations sont-ils plus fouillés ? ...
Oui. CORICO ne sert pas seulement à vous conforter dans ce que vous saviez déjà :
Le logiciel d'analyse de données multivariée CORICO est un outil de découverte. Le retrait des composantes évidentes dévoile les aspects secondaires, souvent essentiels pour l'interprétation.
CORICO dessine les articulations naturelles et détecte également les conjonctions de phénomènes (ET, OU, OU-EXCLUSIF, SI, NI...), les modulations et les résonances. Votre attention est attirée sur les lois générales et sur les événement rares.
L'analyse des corrélations est-elle plus rapide ? ...
Oui. Car elle vous simplifie la vie :
CORICO est réellement multidimensionnel et synthétique: Vous n'avez pas à consulter une multitude de plans ou de tableaux bidimensionnels, au risque d'oublier le premier quand vous arrivez au dernier.
Cette rapidité d’analyse autorise une représentation animée quand la structure de corrélations évolue au cours du temps.
Econome en temps et en essais, CORICO peut signaler, sur la même figure, des effets croisés et des conjonctions remarquables.
Mais le logiciel d'analyse de données CORICO n'offre pas seulement un gain de temps et une sécurité accrue dans l'analyse multivariée des résultats, il révèle souvent des particularités essentielles des données qui auraient échappé sans lui.
Le schéma des corrélations est-il objectif ? ...
Oui. Car il ne fait pas d'hypothèse sur la nature des données, gaussiennes ou non, quantitatives ou qualitatives, stationnaires ou non, aléatoires ou contrôlées, homogènes ou pas. Ainsi, vous n'aurez pas recours à un vocabulaire mathématique étranger aux données qui, parfois, nous fait perdre de vue l'objet même de l'analyse. Le logiciel CORICO vous donne accès à une analyse de données multivariée intuitive, au plus près du réel.
Oui. Car il peut mélanger des variables de tous types (voir plus haut), que vous ayez peu ou beaucoup de données, que vous soyez industriel ou universitaire, statisticien ou non.
Le logiciel d'analyse de données CORICO s'applique entre autres aux dépouillement d'essais et au réglage des chaînes de fabrication. Il se prête particulièrement à leur analyse sous des conditions variées, le plus souvent subies. La compréhension rapide des effets respectifs des multiples facteurs en fait un atout pour la réduction des coûts.
Une approche multicausale : en médecine par exemple, l’approche des pathologies se doit d’être globale et non sélective (paramètres cliniques, biologiques, physique, qualitatif ou quantitatifs) ; elle peut aider à trouver des critères moins invasifs, moins gênant pour le patient. Comprendre les processus qui conduisent à des lésions peut avoir des retombées sur l’explication d’autres maladies.
C'est un moyen d'expertise pluridisciplinaire (industrie, géologie, géophysique, géostatistique, climatologie, planétologie, système solaire, microgravité, spectrométrie de masse, mécanique des sols, archéologie, économétrie, gestion, biologie, agroalimentaire...). Informations de terrain et données indirectes, éventuellement qualitatives, peuvent être combinées et étayer votre décision (enquêtes, qualité, lean sigma, marketing, études de marché par observation ou par expérimentation, plan d'expérience, études d'impact, essais non destructifs, analyse sensorielle, analyse comportementale, sondages, états des lieux, analyse critique des risques, analyse de l'échec, analyse des erreurs, écotoxycologie, prévention, épidémiologie, recherche médicale, essais cliniques, biodiversité multifactorielle, QSAR, optimisation multicritère, analyse rétrospective des données, indicateurs clefs de performance (KPI), renforcer l'impact visuel des tableaux de bord stratégiques...).
Est-ce un outil presse-bouton ? ...
Non.
CORICO n'est pas fait pour réduire la force de votre attention. Au contraire, ce logiciel d'analyse de données attire l'attention sur les particularités des données, et vous pousse à réfléchir sur la manière de mieux les aborder.
CORICO est-il une boite noire ? ...
Non.
Un module pédagogique, ANNA, vous permet de retrouver vous-même, de façon interactive, les résultats de CORICO qui vous semblent par trop surprenants. Vous vérifiez sans peine pourquoi le logiciel a (ou n'a pas) tracé un lien. C'est le moyen de détecter très vite des erreurs de saisies dans les données, et , bien sûr, de reprendre confiance en vous lorsqu'une découverte inattendue vous paraît d'abord trop belle pour être vraie !
CORICO est un système d’intelligence artificielle vérifiable et explicable, capable d’interagir avec un humain. Le cheminement entre la question posée et la réponse donnée ne relève jamais du mystère.
L'avenir de l'intelligence artificielle n'est pas de remplacer l'humain, mais de l'aider.
1 - Ces 24 variables ne sont pas gaussiennes. Aucune n'est liée à une autre par une relation linéaire. Leurs moyennes, toutes égales, ne permettent pas de les distinguer. Nous ne connaissons pas la formule mathématique qui les lie. Pourtant, elles forment, ensemble, la structure de relations organisées de la figure ci-contre. Rien d'artificiel (axe ou projection) ne vient obscurcir ou embrouiller ce schéma entièrement "dirigé par les données".
2 - On recherche, parmi 5 variables, ce qui influence le plus le gain de poids des animaux :
Les résultats de l'expérience sur 30 animaux sont rassemblés dans un tableau comportant 30 lignes et 6 colonnes (dose, poids initial, boeuf, porc, céréales et gain de poids). Les trois types d'aliments qui sont proposées (boeuf, porc et céréales), peuvent différer selon l'animal. Mutuellement exclusifs, ils sont négativement corrélés (traits pointillé sur le schéma). Les liens positifs du schéma (traits pleins) révèlent l'incidence du poids initial de l'animal, de la dose de nourriture et des protéines de boeuf. Mais la variable " dose &- céréales " fabriquée par le programme, souligne l'importance de la conjonction d'une forte dose d'aliment et de protéines sans céréales (à savoir boeuf ou porc). La figure met en jeu des variables qualitatives (boeuf, porc et céréales) et des variables quantitatives (dose et poids); elle demeure cependant très claire.
Le gain de poids n'est pas forcément un critère de qualité. Mais le principe d'analyse multivariée est le même si vous ajoutez des variables indicatrices de la qualité.
Régression multiple : où est le plus de CORICO ? ...
Les modèles de régression multiple avec le logiciel d'analyse de données CORICO présentent les avantages suivants:
Voir des exemples de modèles.
Doit-on recourir à la méthode PLS (Partial Least Squares) ? ...
La régression PLS est une régression linéaire sur un ensemble de composantes orthogonales construites à partir de combinaisons linéaires de p variables explicatives centrées. La construction des composantes est optimisée pour que celles-ci soient les plus liées aux variables à prédire. Les problèmes de multi colinéarité ou de trop grand nombre de variables sont ainsi résolus et les prévisions sont assez efficaces. La contrepartie est la complexité de l’interprétation des résultats.
Compte tenu du fait que (voir ci-dessus) la régression dans CORICO est utilisable
et que, d'autre part, l'interprétation des modèles est facilité par l'utilisation d'interactions logiques faciles à comprendre et classées par importance décroissante,
le recours à la méthode PLS s'avère moins nécessaire.
Les méthodes basées sur la projection du nuage de points sur un plan factoriel (ACP, AFCM, PLS,…) souffrent d’un manque de stabilité : les axes factoriels dépendants du choix des variables, une variable erronée ou hors sujet peut fausser l’interprétation. Cet inconvénient oblige souvent à réduire le nombre de variables, au risque de perdre des informations essentielles.
Au contraire l’iconographie des corrélations est robuste : l’introduction d’une variable fantaisiste a en général peu d’incidence sur le reste du schéma. Par ailleurs la méthode met en évidence les valeurs aberrantes.
Quelle différence avec les SEM (Structural Equation Modeling) ? ...
« L’iconographie des Corrélations » est différente des « Structural equation modeling » (SEM).
CORICO est-il l'un des outils du Big Data ? ...
Oui, le logiciel d'analyse de données CORICO fait partie des outils du "Big Data". C'est le cas si vos données peuvent être présentées sous la forme d'un tableau de données avec variables quantitatives ou qualitatives.
Les entreprises sont en train de prendre conscience de l'extraordinaire potentiel économique de leurs données. Exploitées à bon escient, elle peuvent apporter des gains métier considérables.
Le concept de "big data" en est venu en effet à désigner non plus la masse de données en constante inflation, mais un mode d’exploitation.
Le big data peut mener sur une fausse piste si les données sont mal utilisées ou mal comprises. Dépourvu de toute hypothèse, le logiciel CORICO nous aide à ne pas utiliser les données pour prouver ce qu’on pense déjà savoir.
Les faits sont l'unique porte d'entrée vers la compréhension de vos données. CORICO transforme des tableaux rébarbatifs en schémas intuitifs connectés au réel.