Apprentissage automatique : Classe d’algorithmes qui identifient des modèles dans les données et améliorent leurs performances avec l’expérience, largement utilisés dans les modèles prédictifs de migration.
ARIMA (Auto-Regressive Integrated Moving Average) : le modèle ARIMA est la classe de modèles la plus générale pour la prévision d’une série chronologique qui peut être rendue « stationnaire » par différenciation en conjonction avec des transformations non linéaires telles que la logarithmisation ou la déflation. Un modèle ARIMA non saisonnier est classé comme un modèle « ARIMA (p,d,q) », où p est le nombre de termes autorégressifs, d est le nombre de différences non saisonnières nécessaires pour la stationnarité, et q est le nombre d’erreurs de prévision décalées dans l’équation de prévision.
ARIMAX (Auto-Regressive Integrated Moving Average with eXogenous inputs) : le modèle ARIMAX étend le cadre ARIMA en intégrant des variables exogènes, qui sont des prédicteurs externes de facteurs pouvant améliorer la précision des prévisions.
Cartes de saillance : outils utilisés dans les réseaux neuronaux pour visualiser les caractéristiques d’entrée qui influencent le plus les prédictions du modèle.
Espace importance‑fréquence (IF) : espace bidimensionnel utilisé pour visualiser et évaluer les caractéristiques d’un modèle en fonction de leur importance (dans quelle mesure une caractéristique influence les prévisions du modèle) et de leur fréquence (à quelle fréquence la caractéristique apparaît ou est utilisée dans différents modèles, prévisions ou simulations).
Réseaux bayésiens : modèles graphiques probabilistes représentant des variables et leurs dépendances conditionnelles via un graphe orienté acyclique (DAG), utiles pour modéliser des structures causales complexes.
BSTS (Bayesian Structural Time Series) : modèle bayésien de séries chronologiques qui décompose les données en composantes tendancielles, saisonnières et de régression. Utile pour les prévisions et l’inférence causale en situation d’incertitude.
Courbes/scores d’étalonnage : outils permettant d’évaluer dans quelle mesure les probabilités prédites correspondent aux résultats observés. Un modèle bien étalonné produit des probabilités qui correspondent étroitement aux fréquences réelles des événements.
Graphique orienté acyclique (DAG) : graphique fini avec des arêtes orientées et sans cycles, souvent utilisé pour représenter les relations causales dans les réseaux bayésiens ou les modèles structurels.
LSTM (Long Short-Term Memory) : Type de réseau neuronal récurrent (RNN) qui capture les dépendances à long terme dans les données séquentielles, couramment utilisé pour les prévisions de séries chronologiques.
Macro-Simulation: technique de modélisation qui utilise des données agrégées et des équations pour prévoir les flux migratoires à grande échelle.
MAE (Mean Absolute Error) : Erreur absolue moyenne, mesure qui évalue l’ampleur moyenne des erreurs de prévision, quelle que soit leur direction.
MAPE (Mean Absolute Percentage Error): Erreur absolue moyenne en pourcentage, mesure qui exprime les erreurs de prévision en pourcentage des valeurs réelles, utile pour comparer les erreurs entre différents ensembles de données.
Marche aléatoire : modèle de série chronologique dans lequel la valeur actuelle est égale à la valeur précédente plus un terme d’erreur aléatoire. Les marches aléatoires sont des processus non stationnaires, et le modèle sert souvent de référence naïve dans les prévisions, représentant l’idée que la meilleure prédiction pour demain est la valeur d’aujourd’hui.
MASE (Mean Absolute Scaled Error) : Erreur moyenne absolue pondérée,: mesure indépendante de l’échelle pour évaluer la précision des prévisions, utile pour comparer des modèles à différentes échelles et séries chronologiques.
Mesures spécifiques aux séries chronologiques : mesures conçues pour évaluer les prévisions de séries chronologiques, notamment MASE, la statistique U de Theil et d’autres.
Mesures traditionnelles : mesures d’erreur de prévision couramment utilisées telles que MAE, MAPE, RMSE et MPE.
Micro-simulation: approche de modélisation simulant les comportements individuels sur la base de caractéristiques détaillées et de règles décisionnelles.
Modèles adaptatifs : modèles qui ajustent leurs paramètres ou leur structure de manière dynamique au fil du temps en réponse à de nouvelles données ou à des conditions changeantes. Par exemple, les variables sélectionnées ainsi que leur importance relative dans le modèle Dynamic Elastic Net (DynENet) peuvent varier d’une semaine à l’autre.
Modèles de prévision causale : modèles qui intègrent les mécanismes et les motivations à l’origine des décisions migratoires, utilisant souvent des données individuelles pour distinguer les types de migrants (par exemple, économiques ou forcés).
Modélisation basée sur les agents (ABM) : Approche de simulation qui modélise les actions et les interactions d’agents individuels (par exemple, des individus ou des ménages) afin d’étudier comment les décisions individuelles influencent la dynamique globale.
Modèles causaux dynamiques : modèles causaux sensibles au temps qui tiennent compte des changements dans les relations entre les variables au fil du temps, souvent utilisés pour simuler l’impact des chocs ou des politiques sur le comportement migratoire.
Modèles de lissage exponentiel : cas particuliers des modèles ARIMA (ARIMA (0, 1, 1)) qui utilisent une moyenne des dernières observations plutôt que l’observation la plus récente pour filtrer le bruit et estimer plus précisément la moyenne locale. Souvent utilisés pour les prévisions à court terme de séries sans tendances marquées ni saisonnalité.
Modèle vectoriel autorégressif (VAR) : modèle de séries chronologiques multivariées dans lequel chaque variable est modélisée comme une fonction de ses valeurs passées et de celles d’autres variables du système.
MPE (Mean Percentage Error) : Erreur moyenne en pourcentage, mesure qui capture le biais moyen en pourcentage des prévisions ; elle indique si un modèle a tendance à surestimer ou sous-estimer les prévisions.
PDFs (Probability Density Function): Fonction de densité de probabilité, fonction décrivant la probabilité qu’une variable aléatoire continue prenne certaines valeurs. L’aire totale sous la courbe d’une PDF est égale à un, et la probabilité que la variable se situe dans un intervalle spécifique est donnée par l’intégrale de la PDF sur cet intervalle.
PDPs (Partial Dependence Plots) : Graphiques de dépendance partielle, outils de visualisation montrant l’effet marginal d’une ou deux caractéristiques d’entrée sur les prédictions du modèle.
Prévision migratoire basée sur la classification : approches de prévision qui prédisent la catégorie (par exemple, faible/moyenne/élevée) des volumes des flux migratoires futurs plutôt que des chiffres précis.
Régression LASSO (Least Absolute Shrinkage and Selection Operator) : Technique de régression qui inclut une pénalité pour les coefficients élevés, encourageant ainsi des modèles plus simples et plus faciles à interpréter et réduisant le surajustement.
Réseaux neuronaux récurrents (RNN) : type de réseaux neuronaux particulièrement bien adaptés aux données séquentielles, telles que les séries chronologiques, en raison de leur mémoire des entrées précédentes.
Réseaux neuronaux récursifs : réseaux neuronaux qui appliquent les mêmes poids de manière récursive à des données structurées (par exemple, des arbres syntaxiques), à ne pas confondre avec les réseaux neuronaux récurrents (RNN).
Ridge penalty: technique de régularisation qui ajoute un terme de pénalité aux coefficients de régression afin de réduire le surajustement et d’améliorer la généralisation du modèle.
RMSE (Root Mean Square Error): Erreur quadratique moyenne, mesure d’erreur de prévision couramment utilisée qui pénalise plus lourdement les erreurs importantes en élevant au carré les termes d’erreur.
SARIMA (Seasonal ARIMA) : extension de ARIMA qui intègre des composantes saisonnières, utile pour prévoir des séries chronologiques avec des modèles saisonniers répétitifs.
Séries chronologiques stationnaires : séries chronologiques dont les propriétés statistiques telles que la moyenne, la variance et l’autocorrélation sont constantes dans le temps, c’est-à-dire qui ne présentent pas de tendances ou d’effets saisonniers, et dont les propriétés ne changent pas lorsqu’elles sont décalées dans le temps. La stationnarité est une hypothèse importante pour de nombreux modèles de séries chronologiques.
SHAP (SHapley Additive exPlanations) : méthode d’interprétabilité indépendante du modèle qui attribue à chaque caractéristique d’entrée une valeur d’importance pour les prédictions individuelles basée sur la théorie des jeux coopératifs.
Surajustement : lorsqu’un modèle s’adapte trop étroitement aux données d’apprentissage, capturant le bruit plutôt que les tendances généralisables, ce qui se traduit par de mauvaises performances sur les nouvelles données.
Techniques modernes d’apprentissage profond : modèles avancés de réseaux neuronaux (par exemple, LSTM, RNN, transformateurs) capables d’apprendre des relations complexes et non linéaires dans des données à haute dimension.