Décomposition fine des séries temporelles avec CORICO

Une méthode souple et générale n'exigeant ni un échantillonnage régulier, ni des séries stationnaires.

Série temporelle, logiciel CORICO

Le logiciel de série temporelle ou série chronologique CORICO allie une grande convivialité à une finesse d’analyse inégalée.



8 bonnes raison d'adopter CORICO séries temporelles

Le logiciel

  • 1 - accepte des données non équi-réparties dans le temps, oscillantes ou non ;
  • 2 - calcule les différentes périodes d´un phénomène pluri-rythmique ;
  • 3 - détecte les rythmes non sinusoïdaux ;
  • 4 - n'est pas gêné par les phénomènes non stationnaires, ruptures, seuils, événements isolés, etc.
  • 5 - construit un modèle descriptif et prédictif.
  • 6 - concilie simplicité d’utilisation et haute précision (l’utilisateur n’a rien à spécifier a priori concernant la série temporelle);
  • 7 - permet l'analyse multidimensionnelle ;
  • 8 - ne présente pas d'effet de bord.
  • 9 - détecte les points atypiques (outliers).
  • Exemple: décomposition du trafic autoroutier ...

    Décomposition du trafic autoroutier

    Une série temporelle : le trafic autoroutier en France durant 230 mois de la fin du XX ème siècle :

    Une série temporelle : le trafic autoroute

    Voici le modèle obtenu par CORICO, et son résidu :

    Logiciel CORICO : Le modèle d'une série temporelle et son résidu

    Ce modèle est la somme de trois composantes :

    Logiciel CORICO : Les composantes d'une série temporelle

  • En rouge, la tendance, qui se manifeste à partir du 26 ième mois.
  • En bleu un motif périodique non sinusoïdal, de période annuelle, qui s'amplifie avec le temps.
  • En vert, une onde sinusoïdale de faible amplitude et de période 101,78 mois (8,48 ans), qui s'amplifie avec le temps
  • Muni de ce modèle, il est possible de prédire l'évolution ultérieure du trafic.

    Voici le détail du motif périodique sur deux années successives. Il reflète les périodes de pointes et les creux de trafic. Il n'y aurait aucun intérêt, pour la compréhension physique, de le décomposer lui-même en une somme de sinusoïdes.

    Motif périodique non sinusoïdal d'une série temporelle

    Une avancée majeure dans la décomposition et la prévision des séries temporelles ...

    Une avancée majeure dans la décomposition et la prévision des séries temporelles.


    Série chronologiques superposées


    Par rapport aux méthodes classiques (telles que moyennes mobiles, processus gaussiens, ARMA, ARIMA, Markov ou Box-Jenkins, calcul différentiel, analyse de Fourrier, dispersion de phase, ondelettes, spline, EMD...), la méthode CORICO, simple dans son emploi et précise dans ses résultats, bien adaptée à la prévision, permet un calcul rigoureux même lorsque la cadence d'échantillonnage n'est pas régulière.


    L'approche classique des séries chronologiques consiste à décomposer la série temporelle en une tendance,une composante saisonnière et une composante aléatoire. Mais la réalité est souvent plus complexe : plusieurs tendances et plusieurs saisonnalités se combinent presque toujours!

    Voyons les forces et les faiblesses des différentes approches.

  • La décomposition du signal en séries de Fourier permet seulement l'étude des phénomènes stationnaires (c'est à dire dont l'amplitude et la fréquence des composantes sinusoïdales n'évolue pas dans le temps).

  • La transformée de Fourier sur fenêtre glissantes (STFT : Short Time Fourier transform) analyse le signal sur des fractions supposées stationnaires. Si la fenêtre est petite, la résolution temporelle est grande, mais la résolution fréquentielle est faible, et inversement.
    Inconvénient : la forme et la longueur de la fenêtre sont fixées au début de l’analyse, ce qui suppose une connaissance a priori du phénomène.

  • Dans la transformée en ondelettes, la largeur de la fenêtre n’est pas fixe : les ondelettes peuvent se dilater, d’où une meilleure étude des signaux transitoires.
    Cependant, pas plus que la STFT, cette méthode n’est adaptée aux signaux non stationnaires et non linéaires dont on ne connaît pas a priori les caractéristiques. Les ondelettes sont utiles pour le débruitage, l’analyse d’image et la compression de données, mais ne se prêtent pas à l’extrapolation et à la prédiction des séries temporelles.

  • La Décomposition Modale Empirique (EMD pour « Empirical Mode Decomposition ») produit, pour tout signal, une décomposition multi-échelles pilotée par les données. Les composantes obtenues, appelées IMF (pour « Intrinsic Mode Function ») sont des formes d'ondes oscillantes potentiellement non harmoniques dont les caractéristiques, forme, amplitude et fréquence peuvent varier au cours du temps.
    L’extraction des modes ou IMF est une opération non linéaire, mais leur recomposition est linéaire.
    En revanche, l’EMD ne détectera pas une composante non oscillante (par exemple, une fonction croissante ou en marche d’escalier, etc.). De plus l’usage des maxima ou minima locaux la rend très sensible à l’échantillonnage.

  • Dans les modèles ARMA (autoregressive moving average), la valeur prise au temps t par la variable étudiée est une fonction linéaire de ses valeurs passées et des valeurs présentes ou passées d’un « bruit blanc ». La méthode de Box-Jenkins(1976) consiste à modéliser les séries temporelles au moyen de processus « ARMA ».

  • Le modèle ARIMA est un modèle ARMA auquel on applique un caractère de « non stationnarité » (le rajout d’un terme de tendance ou de saisonnalité). Il implique des calculs de différences successives, et suppose des mesures équidistantes dans le temps.

  • Une chaîne de Markov est un processus discontinu dont la distribution au temps t, ne dépend que du temps t-1 uniquement.

  • Les fonctions splines réalisent un modèle polynomial par morceaux (dans des intervalles) en imposant des conditions de continuité, de pente et de courbure aux frontières des intervalles. Cela permet de lisser la série, mais pas d’extrapoler vers le futur.

  • L'Inférence bayésienne, outre l'information issue des données, suppose le choix d'une loi de probabilité a priori. Mais il n'est pas toujours pertinent de choisir une loi facilitant les calculs au détriment de la vraisemblance du modèle. Ces méthodes sont difficiles à manipuler (nombreuses variantes, compromis sensibilité-précision).

  • La méthode CORICO, au contraire, à la fois descriptive et prédictive, ne repose sur aucune hypothèse, si ce n'est sur l'idée que le futur ressemble parfois au passé. L’une des forces du logiciel CORICO repose sur la distinction automatique des événements exceptionnels d’avec ceux susceptibles de se reproduire.

    CORICO décèle et démêle dans les séries temporelles les interférences de divers cycles et saisonnalités avec des ruptures de tendances en " marches d'escaliers ", en " V ", des " ruptures logistiques ", des motifs périodiques, et des événements accidentels tels que des pics isolés ou des " morceaux d'ondes ". Le logiciel détecte aussi les variations au cours du temps de l’amplitude d’une oscillation.

    Muni d'une prévision fiable, vous pouvez appuyer vos décisions et procéder à des corrections.

    Série temporelle décomposée par le logiciel CORICO

    Dans la figure ci-dessus, CORICO a détecté 8 composantes de la série temporelle Ha, à savoir 5 composantes sinusoïdales, et 3 motifs périodiques non sinusoïdaux (16490~~t, 9890~~t, 16400~~t). ModelHa, qui est la reconstitution de la série au moyen de ces 8 composantes, permet la prévision en fonction du temps t.

    Un autre exemple : le trafic aérien ...

    Un autre série temporelle : le trafic aérien

    L’exemple du trafic aérien international est souvent cité pour comparer des logiciels de séries temporelles :

    Une série temporelle : le trafic aérien international

    Le nombre de passagers augmente régulièrement. Là-dessus se superpose une variation cyclique annuelle. Ces variations à l'intérieur d'une même année sont de plus en plus fortes.

    Une moyenne mobile d’ordre 12 (c’est à dire sur les 12 points précédents et suivants) permet de lisser les données en filtrant les cycles annuels, mais elle induit un effet de bord à droite et à gauche de la courbe, où elle ne peut être calculée :

    La série chronologique lissée par moyenne mobile

    Une autre méthode, le lissage exponentiel simple, qui est une moyenne pondérée sur les valeurs passées, n’a pas d’effet de bord, il exige cependant le choix subjectif d’un paramètre béta, fixant l’influence plus ou moins grande du passé. Ci-dessous, béta = 0.9 :

    Lissage exponentiel de la série temporelle

    Ce lissage est optimal pour des séries temporelles sans tendances ni saisonnalité. On peut l’améliorer avec le lissage exponentiel double ou, mieux, avec le lissage exponentiel triple ou de Holt-Winters. Ce dernier requiert de fixer a priori trois paramètres, dont la période attendue de la saisonnalité.

    Outre le choix toujours subjectif des paramètres, cette méthode ne permet pas de décomposer une série comportant plusieurs cycles et plusieurs tendances superposés.

    Nous allons donc utiliser une autre méthode, plus simple, plus précise et plus générale, puisqu’elle ne requiert aucun paramètre et permet la décomposition complète de la série temporelle.

    Le modèle de régression non postulé, trouvé par le logiciel CORICO, est le suivant :

    La série temporelle : modèle de régression multiple

    Le sens des noms des prédicteurs de cette équation de régression, propre au logiciel, sera mieux compris graphiquement :

    Une série temporelle : le trafic aérien international

  • Le premier prédicteur : « 4~203~mois » exprime la tendance à augmenter au cours du temps.
  • Le deuxième prédicteur : « 239~0~0/mois » donne une première variation sinusoïdale de période annuelle, dont l’amplitude augmente avec le temps .
  • Le troisième prédicteur : « 480~279~1/mois» donne une autre variation sinusoïdale de période semestrielle, dont l’amplitude augmente avec le temps. Etc.
  • La méthode permet la correction des valeurs anormales et sans lendemain (oct-60 et févr-54).
  • Le tableau ci-dessous donne le détail des coefficients, les périodes en mois, et les points atypiques.

    La série temporelle : périodes des prédicteurs

    Comme les prédicteurs sont classés par ordre d’importance décroissante, on voit tout de suite, d’après les coefficients, que les trois premiers prédicteurs expliquent presque toute la variabilité.

    A titre indicatif, le logiciel fournit aussi ci-dessous le tableau d’analyse des coefficients et le tableau d’analyse de variance.

    La série temporelle : analyse de variance

    Les graphes ci-dessous représentent, à gauche le modèle des Passagers en fonction des Passagers, et à droite les résidus correspondants. C’est un bruit aléatoire totalement sans structure (« bruit blanc ») :

    La série temporelle : analyse de variance

    La série temporelle : superposition du modèle sur la réalité

    Le graphe ci-dessous montre, par rapport à l’amplitude du premier prédicteur (la tendance, en rouge), les amplitudes relatives du deuxième prédicteur (en bleu, de période annuelle), du troisième prédicteur (en vert, de période semestrielle), et enfin du résidu.

    La série temporelle : composantes des premiers et deuxième prédicteurs

    Ainsi l’interprétation est simple avec le logiciel CORICO : Il n’est pas besoin d’examiner un autocorrélogramme ou un périodogramme. Le calcul est d’autant plus précis qu’il n’est pas fondé sur des moyennes mobiles (en effet le choix de l’ordre de la moyenne mobile est toujours délicat : des saisonnalités parasites peuvent apparaître).

    Muni de ce modèle nous pouvons calculer une prédiction du trafic, par exemple pour les 3 années suivantes (au-delà du trait bleu) :

    Prédiction : prolongement de la série chronologique

    Prise en compte d’influences diverses ...

    Prise en compte d’influences diverses

    L’analyse d’une série temporelle sera meilleure si l’on tient compte des événements qui ont pu influencer la série (changements législatifs ou économiques, accidents majeurs, grèves, données climatiques, etc.)

    Exemple : le nombre de décès par accident tous les mois sur les routes d’Angleterre, de janvier 1975 à décembre 1984, présente l’allure suivante :

    Série temporelle : décès par accident

    En janvier 1983, le port de la ceinture a été rendu obligatoire pour les automobilistes anglais (Seat Belt Law). Deux cas sont possibles :

  • L’analyste connaît l’existence de cette loi et veut en tenir compte.
  • L’analyste ne connaît pas l’existence de cette loi.
  • 1 – L’analyste connaît l’existence de la « Seat Belt Law »

    Soupçonnant l’influence de l’obligation du port de la ceinture sur la réduction du nombre de décès, l’analyste ajoute à ses données une variable « SeatBeltLaw » qui vaut 0 avant janvier 1983, et qui vaut 1 à partir de janvier 1983.

    A partir de là, le logiciel CORICO construit le modèle de régression multiple suivant :

    Modèle d'une série chronologique des décès

    Le sens des noms des prédicteurs, rangés dans l’équation par importance décroissante, sera mieux compris sur le graphe suivant (en bleu, les variables d’entrée) :

    Série temporelle décomposée

    Détail des prédicteurs du modèle :

    Détail du modèle de la série chronologique des décès

  • Le premier prédicteur 198~72~t est une variable sinusoïdale de période annuelle.
  • Le second prédicteur n’est pas SeatBeltLaw, mais t{SeatBeltLaw qui montre certes l’influence de la loi, mais aussi une légère diminution inattendue, au fil du temps, de cette influence, après la mise en application de la loi.
  • Le troisième prédicteur 398~86~9\t est une variable sinusoïdale de période semestrielle.
  • Etc. Chaque prédicteur explique le résidu non expliqué par les prédicteurs précédents.
  • Deux points atypiques (outliers) ont été détectés: février 1976 et mars 1979.
  • Série temporelle et modèle superposés

    Nous pouvons utiliser l'équation du modèle pour prévoir les décès sur les années suivantes, à partir d’un fichier de données contenant les temps supérieurs à décembre 1984, et une variable SeatBeltLaw constante = 1. Prévision au-delà du trait rouge (janvier 1985) :

    Prévision de la série temporelle


    2 – L’analyste ne connaît pas l’existence de la « Seat Belt Law »

    Dans ce cas, le logiciel CORICO donne le modèle de régression suivant, fondé seulement sur des fonctions du temps :

    Modèle d'une série chronologique seulement fonction du tems

    Le R2ajusté est légèrement moins bon que celui du modèle précédent. En effet le logiciel CORICO a dû trouver automatiquement l’existence d’une rupture en janvier 1983, notée 4.96>98.t. Les modèles sont cependant très semblables, ce qui montre la robustesse de l’algorithme. Toutefois la décroissance de l’influence de la loi SeatBeltLaw au cours du temps n’est plus perçue dans ce modèle :

    Décomposition de la série temporelle

    Superposition du modèle sur la série temporelle

    L’ajustement semble presque identique à celui du modèle précédent, mais la prévision sur les deux années suivantes est légèrement différente, puisqu’on dispose d’un peu moins d’information. Prévision au-delà du trait orange (janvier 1985):

    Prévision de la série temporelle au delà de 1984

    En conclusion, le logiciel CORICO permet de tirer le meilleur parti de l’information disponible. Bien sûr, il est toujours préférable, lorsqu'on les connaît, de tenir compte des événements qui peuvent influencer la série étudiée.

    Cas de l'échantillonage irrégulier ...

    Echantillonnage irrégulier dans le temps

    Série temporelle : échantillonnage irrégulier

    Les séries chronologiques d’échantillonnage irrégulier se rencontrent dans de nombreux domaines industriels et scientifiques :

  • catastrophes naturelles telles que tremblements de terre, inondations ou éruptions volcaniques ;
  • mesures d'objets célestes prises à des moments déterminés par les conditions météorologiques, les créneaux horaires d'observation, et des configurations planétaires appropriées ;
  • essais cliniques (ou plus généralement, études longitudinales), où l’on observe l'état de santé d'un patient seulement à des intervalles de temps irréguliers, et où différents patients sont observés à différents moments ;
  • capteurs sans fil ne transmettant des informations que lors d’un changement d'état pour économiser la batterie ;
  • climatologie, écologie, finance à haute fréquence, géologie etc.
  • L’approche courante consiste à transformer l’échantillonnage irrégulier des données en observations également espacées, par interpolation - le plus souvent linéaire - puis d'appliquer les méthodes classiques. Malheureusement la transformation des données introduit des biais difficiles à quantifier, surtout si l'écartement des observations est très irrégulier.

    Au contraire, CORICO permet d’analyser une série inégalement espacée dans le temps sous sa forme non modifiée, évitant ainsi les biais d’interpolation lors du calcul du modèle.

    Le modèle une fois connu, on en déduit les valeurs non échantillonnées.

    Champ d'application ...

    Champ d'application des séries temporelles

    Les séries temporelles ou séries chronologiques, c’est-`a-dire les collections de mesures ordonnées dans le temps, sont présentes un peu partout. Leur analyse est requise dans de nombreuses sciences et techniques, généralement pour comprendre une évolution passée et pour prévoir un comportement futur. La prévision consiste à estimer une observation future à partir de la connaissance historique.

    En l’absence de recherche de variables explicatives, l’accent est mis sur les séries univariées. Dans le cas contraire, par exemple en économie et finance, les dépendances entre séries peuvent faciliter des décisions d’arbitrage. Il convient alors de considérer des séries multivariées .

    On trouve des exemples de séries chronologiques univariées dans de très nombreux domaines :

  • Analyse rétrospective des données,
  • Décomposition saisonnière,
  • Rythmes, périodicité, fluctuations, événements accidentels,
  • Chronobiométrie,
  • Chronobiologie,
  • Finance et économétrie, désaisonnalisation, prévision de la demande et des ventes, évolution des indices boursiers, des prix, des données économiques des entreprises, des ventes et achats de biens, des productions agricoles ou industrielles,
  • Actuariat, assurances : modéliser la fréquence des sinistres et les pertes pécuniaires associées.
  • Chronoéconométrie (micro-économie, macro-économie),
  • Astronomie (évolution des taches solaires, rayonnement cosmique, etc.),
  • Sciences de la terre et de l'espace, météorologie, climatologie, phénomènes d’avalanches,indices de marées, variations des phénomènes physiques,
  • Traitement du signal, mesures successives de position ou de direction d’un objet mobile (trajectographie), signaux de communications, de radars, de sonars, analyse de la parole, phénomènes ondulatoires,
  • Médecine : suivi des évolutions des pathologies, analyse d’électro-encéphalogrammes et d’électrocardiogrammes,
  • Biologie,
  • Physiologie, sport ...

  • Bibliographie

    Retour aux questions ? ...



    Vous êtes enseignant : contactez-nous pour connaître les conditions spéciales qui vous permettront d'équiper votre classe, votre laboratoire, votre école ou votre université.

    Economisez des années en Recherche et Développement :

    INDUSTRIE - RECHERCHE - QUALITÉ - ÉPIDÉMIOLOGIE - ENQUÊTES - ECONOMETRIE ...

    TUTORIEL

    • Importer les données
    • Iconographie
    • Générer un plan
    • Régression

    Voir les tutoriels

    FORMATION

    • Découvrir et maîtriser
    • l'Analyse de Donnéees
    • le Plan d'expériences
    • les Séries Temporelles

    • Voir les formations