Pour évaluer les performances des modèles de prévision des migrations et les adapter aux résultats de l’évaluation, le cadre suivant peut être appliqué, qui aborde la robustesse, les mesures et les approches de back-testing. Dans la littérature, les définitions précises des termes associés varient, mais dans cette section, nous considérons que l’évaluation englobe un ensemble de processus garantissant la qualité des modèles de prévision. Elle comprend la validation des performances du modèle – comprise ici comme le test de l’alignement des résultats du modèle avec les données observées – ainsi que l’étalonnage. Dans ce contexte particulier, l’étalonnage examine les mesures d’erreur (intervalles prédictifs) et leur correspondance avec les fréquences relatives des observations de différentes magnitudes observées dans les séries de données. Les modèles d’apprentissage automatique, et donc les modèles statistiques, apprennent leurs paramètres à partir de données historiques. Alors que les modèles statistiques traditionnels sont généralement parcimonieux en termes de nombre de paramètres, les modèles d’apprentissage automatique peuvent en englober un grand nombre. Les deux cas présentent un risque de surajustement, mais ce risque peut être beaucoup plus élevé pour certaines classes de modèles d’apprentissage automatique, tels que ceux basés sur des techniques d’apprentissage profond. Compte tenu de ce risque, l’évaluation des performances et les tests rétrospectifs doivent être appliqués aux deux classes de modèles.
Anticiper et se préparer aux flux migratoires
7. Comment évaluer le modèle ?
Copier le lien de 7. Comment évaluer le modèle ?Comment valider les performances d’un modèle ?
Copier le lien de Comment valider les performances d’un modèle ?Une fois construits et estimés, les modèles de prévision doivent faire l’objet d’une validation de leurs performances. Un certain nombre d’outils (Encadré 7.1) et de méthodes peuvent être utilisés à cette fin. Une approche standard consiste à examiner les erreurs passées, qui peuvent être comparées à un certain référentiel, par exemple une prévision constante ou une prévision obtenue par une simple extrapolation, telle que le lissage exponentiel ou un modèle ARIMA de base, qui lie l’ampleur actuelle des processus prévus à leur passé. Cet exercice consiste généralement à exécuter les modèles et les références sur une série chronologique raccourcie de données, par exemple en mettant de côté les cinq dernières observations, et à vérifier dans quelle mesure les prévisions ont permis de « prédire » les points de données qui ont été mis de côté. C’est ce qu’on appelle la validation a posteriori ou hors échantillon des modèles. En effet, les données mises de côté ne font pas partie de l’échantillon et n’alimentent pas le modèle, elles peuvent donc être utilisées pour une validation indépendante. Cela diffère de la validation ex ante, ou intra-échantillon, qui examine dans quelle mesure le modèle correspond à l’échantillon spécifique de données, et qui peut être mesurée, par exemple, par le coefficient de détermination (R2), divers critères d’information (AIC, BIC), etc. Pour un modèle donné, l’approche ex ante permet d’estimer les erreurs (la différence entre les données réelles et les prévisions) en se basant uniquement sur l’échantillon de données. Cependant, la validation ex ante ne constitue pas en soi une preuve de la bonne capacité prédictive du modèle.
À leur tour, les mesures utilisées dans la validation ex post comprennent une série de mesures d’erreur, plus les mesures d’erreur sont faibles, mieux c’est.
Mesures traditionnelles : Hyndman et Athanasopoulos (2018[1]) donnent une introduction de base à l’erreur quadratique moyenne (RMSE), à l’erreur absolue moyenne (MAE) et à d’autres mesures traditionnelles utilisées dans les prévisions. La RMSE et la MAE évaluent respectivement la distance quadratique et la distance absolue entre la valeur réelle de la variable cible et ses prévisions. La RMSE ou la MAE sont utilisées pour les prévisions de flux migratoires continus. F1 score, Precision et Recall sont particulièrement utiles pour les prévisions migratoires « basées sur la classification ». Par exemple, un modèle qui prédit des flux migratoires « élevés », « moyens » et « faibles » plutôt que des volumes migratoires est un modèle basé sur la classification. La « Precision » mesure la fréquence à laquelle les prévisions du modèle pour une classe sont correctes, tandis que le « Recall » vérifie dans quelle mesure le modèle capture toutes les instances réelles de cette classe. Le F1 score équilibre les deux, garantissant à la fois l’exactitude et l’exhaustivité. Dans la « classification multiclasses », ces mesures sont calculées pour chaque classe, puis moyennées pour obtenir la performance globale.
Mesures spécifiques aux séries chronologiques : Hyndman (2006[2]) introduit l’erreur moyenne absolue pondérée (MASE) et la compare à d’autres mesures, telles que la MAPE. L’erreur absolue moyenne en pourcentage (MAPE) est couramment utilisée pour évaluer la précision des prévisions par rapport aux valeurs observées ; la MASE est particulièrement utile pour comparer différents modèles ou échelles. Ces statistiques sont similaires à la MAE, mais prennent en compte l’erreur en termes relatifs ou standardisés.
Validation causale : Runge et al., (2023[3]) examinent les méthodes de validation causale, en particulier pour les données dynamiques et les séries chronologiques dans le contexte des prévisions causales. La comparaison des impacts prévus des interventions (par exemple, les changements de politique) avec les résultats connus permet de vérifier si les hypothèses causales sont valables. Cette approche n’est applicable que lorsqu’une ou plusieurs périodes d’intervention sont bien séparées, bien que dans de nombreuses situations, les interventions soient souvent échelonnées.
Les erreurs ex post peuvent fournir des informations très utiles pour déterminer s’il existe un biais systématique dans les prévisions, dans quelle mesure les modèles se trompent par rapport aux évolutions réelles ultérieures et, surtout, si des référentiels simples auraient pu donner de meilleurs résultats. En fait, l’aspect comparatif des erreurs de prévision est l’un des fondements de la validation d’une série de modèles et du choix du meilleur d’entre eux. Idéalement, l’évaluation des prévisions devrait tenir compte de ces deux aspects : présenter les erreurs ex ante ou les mesures associées pour démontrer que le modèle correspond raisonnablement bien aux données, et les erreurs ex post pour montrer ses capacités prédictives.
Encadré 7.1. Une boîte à outils open source pour valider les modèles de prévision : le projet SEAVEA
Copier le lien de Encadré 7.1. Une boîte à outils open source pour valider les modèles de prévision : le projet SEAVEADes équipes de recherche de l’université Brunel de Londres et de l’University College London ont développé depuis 2021 une boîte à outils open source dédiée à la VVUQ (vérification, validation et quantification des incertitudes). La boîte à outils SEAVEA (Software Environment for Scalable & VVUQ-evaluated Exascale Applications) comprend la vérification des modèles (confirmation que le modèle mathématique et l’algorithme correspondant ont été correctement codés), la validation (des résultats par rapport à des mesures qualitatives et quantitatives qui appliquent une métrique de validation) et la quantification des incertitudes (compréhension des origines et évaluation de l’ampleur des erreurs qui accompagnent les simulations informatiques, qu’elles soient épistémiques ou aléatoires).
Bien qu’initialement développée pour les simulations informatiques exascale très intensives, la boîte à outils SEAVEA prend en charge tous les domaines d’activité qui nécessitent des simulations d’événements pour établir des prévisions en vue de la prise de décision, tels que l’énergie de fusion, la science du climat, l’épidémiologie, la médecine, l’aérospatiale et les migrations. Elle s’adapte donc aussi bien aux modèles de calcul exascale qu’aux modèles utilisant des ressources informatiques beaucoup plus modestes et un nombre réduit de points de données, tels que ceux généralement utilisés pour les prévisions migratoires. SEAVEA comprend un ensemble de composants interopérables et avancés (tel que Easy VVUQ) afin d’aider les modélisateurs à rendre leurs simulations plus reproductibles, fiables et scientifiquement crédibles, ce qui permet en fin de compte de réduire les coûts et le temps nécessaires pour effectuer les calculs. Tous les outils étant open source et disposant de leurs propres référentiels GitHub, SEAVEA permet à quiconque de proposer des contributions et des modifications à la boîte à outils.
Checklist:
Ai-je évalué la précision prédictive du modèle à l’aide de mesures standard ?
Utilisez des indicateurs tels que l’erreur quadratique moyenne (RMSE) et l’erreur absolue moyenne (MAE) pour évaluer les performances des prévisions.
Ai-je effectué une validation ex post ?
Exécutez le modèle et les benchmarks pertinents sur une série chronologique raccourcie afin d’évaluer sa capacité à prédire les données hors échantillon.
Ai-je effectué une validation a priori ?
Utilisez des mesures telles que R² (coefficient de détermination) et AIC (Akaike Information Criterion) pour tester l’adéquation du modèle aux données disponibles.
Ai-je interprété correctement à la fois la puissance prédictive et l’adéquation du modèle ?
Des évaluations ex post et ex ante sont nécessaires pour démontrer la robustesse et la fiabilité globales du modèle.
Comment calibrer le modèle ?
Copier le lien de Comment calibrer le modèle ?Pour les modèles de prévision probabilistes, un autre aspect important de l’évaluation est le calibrage des intervalles de prédiction. L’objectif ici est de vérifier si les mesures probabilistes produites par le modèle sont raisonnables, ni trop étroites ni trop larges. Pour ce faire, on vérifie si les intervalles de prédiction prévus ex ante par le modèle correspondent globalement à ceux obtenus ex post, sur la base des données qui doivent être mises de côté. En règle générale, les intervalles prédictifs de 50 % produits par le modèle devraient couvrir les valeurs futures environ 50 % du temps, les intervalles de 80 % environ 80 % du temps, et ainsi de suite. Une manière simple de procéder consiste à calculer les fréquences empiriques des cas pour lesquels les valeurs réelles se situent à l’intérieur (ou à l’extérieur) de divers intervalles prédictifs (voir Gneiting, Balabdaoui et Raftery (2007[4]) et Czado, Gneiting et Held (2009[5]), qui qualifient cette approche de « calibrage marginal »). Par exemple, si nous mettons de côté dix observations pour effectuer une évaluation des prévisions hors échantillon, pour des prévisions bien calibrées, nous nous attendrions à ce que cinq de ces dix observations se situent dans les intervalles prédictifs de 50 %, et huit dans ceux de 80 %.
Des intervalles prédictifs trop larges par rapport à leurs probabilités nominales (par exemple, si les intervalles de 50 % couvrent 90 % des observations) sont trop conservateurs et peuvent conduire à une couverture inutile contre certaines possibilités extrêmes, tandis que des intervalles trop étroits (par exemple, lorsque les intervalles de 80 % ne couvrent que 25 % des observations) sont d’un optimisme irréaliste et peuvent conduire à un manque de préparation. Cela s’ajoute à la question du choix des intervalles pour l’étalonnage. Compte tenu de la rareté des données sur les migrations et du fait que les extrêmes de la distribution peuvent être très difficiles à estimer avec précision, il y a lieu d’étalonner les intervalles de 50 et 80 % (Bijak et al., 2019[6]), plutôt que, par exemple, ceux de 99 %, bien que dans les applications pratiques, les intervalles de 95 % aient tendance à être également utilisés dans les exercices d’étalonnage (voir Bijak (2011[7]) ou Azose et Raftery (2015[8]). Quel que soit le choix effectué, les prévisions présentant un écart de calibrage important doivent être prises en compte : elles peuvent indiquer soit que le modèle choisi n’est pas adapté aux données, ce qui nécessiterait de le redéfinir, soit que les hypothèses relatives au terme d’erreur sont trop restrictives ou trop larges. Il faudrait alors revoir les hypothèses préalables relatives aux paramètres du modèle concerné, tels que la variance du terme d’erreur, éventuellement dans un cadre plus large si l’on procède à une élicitation itérative d’experts, comme indiqué au chapitre 6.
Le calibrage des prévisions occupe une place importante dans la littérature méthodologique sur les prévisions. Brocker et Smith (2007[9]) expliquent l’utilisation des courbes de calibrage et des évaluations de fiabilité pour les prévisions probabilistes. L’évaluation de l’adéquation entre les probabilités prévues et les résultats observés nécessite l’utilisation de courbes ou de scores de calibrage. Les courbes d’étalonnage montrent si les probabilités prédites par un modèle correspondent aux résultats réels, indiquant ainsi s’il est trop ou pas assez fiable. Gneiting, Balabdaoui et (2007[4]) et Czado, Gneiting et Held (2009[5]) proposent un ensemble de règles de notation différentes pour évaluer les prévisions probabilistes en fonction à la fois de leur précision et de leur étalonnage. À titre d’exemple, pour prédire des événements binaires, une règle de notation simple est le score de Brier (Brier (1950[10])) ; voir Tetlock et Gardner (2015[11])). Le score de Brier est la somme des carrés des différences entre les probabilités prédites et le résultat binaire réel (1 = l’événement s’est produit, 0 = il ne s’est pas produit) : plus le score est faible, mieux c’est, et les valeurs inférieures à 0.25 (0.52, indiquant une estimation aléatoire) montrent l’avantage d’un certain modèle ou d’une certaine approche. Gneiting et Raftery (2007[12]) discutent également de l’utilisation du score de probabilité classé continu (CRPS) comme règle de notation appropriée pour aider à analyser, par exemple, la capacité du modèle à prédire non seulement des estimations ponctuelles, mais aussi des distributions entières. Le CRPS mesure la précision des prévisions probabilistes en comparant la distribution cumulative prédite au résultat réel, les scores les plus bas indiquant les meilleures prévisions. Dans le domaine des prévisions migratoires appliquées, l’évaluation de l’étalonnage fait désormais partie des outils d’évaluation standard (Bijak et al., 2019[6] ; Welch et Raftery, 2022[13]).
Checklist:
Ai-je inclus des intervalles de prédiction dans l’évaluation du modèle ?
Il est recommandé d’étalonner les intervalles de prédiction à 50 % et 80 % afin d’évaluer la fiabilité du modèle.
Les résultats observés se situent-ils dans les fourchettes attendues lors des évaluations des prévisions hors échantillon ?
Par exemple, sur dix observations, environ cinq devraient se situer dans l’intervalle de 50 % et huit dans l’intervalle de 80 %.
Ai-je ajusté le modèle si les intervalles sont systématiquement trop étroits ou trop larges ?
Un mauvais calibrage peut indiquer que le modèle sous-estime ou surestime l’incertitude et peut nécessiter un affinement.
Comment adapter le modèle en fonction des résultats de l’évaluation ou à mesure que les données deviennent disponibles ?
Diagnostic d’erreur : Chatfield (2000[14]) traite du diagnostic des résidus et de la décomposition des erreurs pour les modèles de séries chronologiques. L’examen des résidus (par exemple, la différence entre les valeurs prévues et les valeurs réelles) est essentiel pour identifier les biais systématiques (par exemple, la sous-estimation lors de chocs économiques ou le surajustement aux modèles de migration saisonnière). Cette technique est héritée de l’analyse de régression linéaire standard, mais dans le contexte des séries chronologiques, elle peut révéler des modèles supplémentaires dont une version mise à jour du modèle peut tenir compte. Les techniques de décomposition des erreurs sont particulièrement utiles dans ce contexte, car elles permettent d’isoler des problèmes tels que le désalignement des tendances ou la saisonnalité fallacieuse.
Affiner le modèle : Zou et Hastie (2005[15]) et Carammia et al. (2022[16]) appliquent des méthodes régularisées dans l’apprentissage automatique et l’extraction d’importance. L’affinement du modèle peut nécessiter l’introduction de nouvelles caractéristiques (par exemple, des indices politiques, des indicateurs environnementaux) ou la repondération des caractéristiques sur la base d’une analyse d’importance (par exemple, les valeurs SHAP). Les modèles peuvent également être régularisés de manière plus agressive (par exemple, méthode elastic net) ou en simplifiant les architectures trop complexes afin de réduire le surajustement. Ce raffinement peut faire partie de la construction du modèle dans les modèles adaptatifs, ou constituer une étape ex post distincte.
Adaptation dynamique : Bontempi et al. (2013[17]) introduisent des techniques d’apprentissage en ligne pour les ensembles de données en évolution. Les techniques d’apprentissage en ligne sont utilisées pour mettre à jour les modèles en continu à mesure que de nouvelles données arrivent. D’autres techniques d’adaptation intègrent un ajustement spécifique au scénario basé sur des analogies historiques.
Alors que le raffinement du modèle est utilisé après que celui-ci a été ajusté à l’ensemble des données historiques, c’est-à-dire lorsque l’on suppose que le modèle ne change pas avec le temps, l’apprentissage en ligne et l’ajustement spécifique au scénario sont appliqués de manière dynamique dans les modèles adaptatifs pendant l’ajustement. Alors que Bontempi et al. (2013[17]) proposent de mettre à jour le modèle à chaque nouvelle observation, Carammia et al. (2022[16]) appliquent cette idée à des fenêtres mobiles en supposant que les processus de migration changent au fil du temps mais présentent une certaine persistance sur de courtes périodes.
Checklist:
Le modèle a-t-il échoué à la validation ou montré des signes de mauvaise performance ?
Examinez les résidus pour détecter les tendances ou les structures que le modèle aurait pu manquer. Pour les modèles d’apprentissage automatique, ils peuvent être améliorés en introduisant de nouvelles fonctionnalités ou en ajustant les pondérations de celles qui existent déjà.
Ai-je envisagé des techniques d’amélioration continue du modèle ?
Les méthodes d’apprentissage en ligne permettent de mettre à jour les modèles en temps réel à mesure que de nouvelles données deviennent disponibles, avant même une réévaluation formelle.
Ai-je documenté les modifications apportées au modèle à la suite de son affinement ?
Le suivi des mises à jour garantit la transparence et favorise la reproductibilité du processus de prévision.
Comment évaluer la robustesse ?
Copier le lien de Comment évaluer la robustesse ?Tests de robustesse : Barredo Arrieta et al. (2020[18]) passent en revue plusieurs techniques de test de robustesse, y compris les tests adversaires, pour les modèles d’IA. Ces techniques comprennent le test de la sensibilité des prédictions au bruit, aux données manquantes ou aux entrées hors distribution. La réalisation de tests adversaires nécessite l’introduction de perturbations contrôlées dans les entrées.
Tests de résistance : Kilian et Lütkepohl (2017[19]) abordent les tests de résistance dans les prévisions économiques et migratoires à travers des simulations de scénarios extrêmes. La simulation de scénarios extrêmes (par exemple, des crises politiques soudaines ou des catastrophes environnementales) est importante pour évaluer la stabilité des modèles.
Validation intertemporelle : Tashman (2000[20]) passe en revue les méthodes de validation intertemporelle et d’origine glissante. La réalisation de tests rétrospectifs sur plusieurs périodes historiques permet de vérifier la cohérence dans le temps, en particulier lors d’événements perturbateurs. Cette approche est un sous-produit du flux de travail décrit dans Carammia et al. (2022[16]).
Analyse de scénarios : les prévisions dans des scénarios hypothétiques doivent être évaluées afin d’apprécier l’adaptabilité du modèle aux changements structurels. Cela implique de tester les performances du modèle dans diverses conditions hypothétiques afin de comprendre sa robustesse et sa fiabilité. En simulant différents scénarios hypothétiques, tels que des retournements économiques, des changements de politique ou des événements imprévus, il est possible d’évaluer dans quelle mesure le modèle s’adapte aux changements structurels. Cela permet d’identifier les faiblesses potentielles, d’affiner les hypothèses et d’améliorer la prise de décision dans un contexte d’incertitude. La littérature sur ce sujet est encore limitée, car l’analyse de scénarios est très ponctuelle et nécessite également la capacité de générer des scénarios grâce à l’avis d’experts.
Dans tous les cas ci-dessus, les mesures de performance résumées dans la section précédente sont des outils pratiques pour évaluer la robustesse des prévisions.
Checklist:
Est-ce que j’utilise les mêmes mesures pour l’évaluation de la robustesse que pour la validation des performances ?
Des mesures telles que RMSE, MAE, R² et AIC peuvent être appliquées pour évaluer à la fois la précision et la robustesse du modèle.
Ai-je testé le modèle dans différentes conditions ou différents scénarios?
Les contrôles de robustesse peuvent impliquer de varier les données d’entrée, les délais ou les hypothèses afin de garantir des performances cohérentes
Le modèle fonctionne‑t-il de manière fiable dans différents sous-groupes ou segments de données?
Des résultats cohérents dans différents contextes renforcent la confiance dans la généralisation du modèle.
Ai-je documenté la manière dont le modèle réagit aux changements d’hypothèses ou de données d’entrée ?
Cela permet de déterminer dans quelle mesure les résultats du modèle sont sensibles à des facteurs externes.
Comment effectuer un back-testing des modèles ML/Stat ?
Copier le lien de Comment effectuer un back-testing des modèles ML/Stat ?Les approches traditionnelles et alternatives de validation des performances des modèles évoquées ci‑dessus sont toutes, en pratique, des stratégies de back-testing, car elles ne peuvent être mises en œuvre qu’à partir de données historiques. La validation des performances des modèles et le back-testing utilisent en effet les mêmes indicateurs. Plus précisément, l’évaluation des performances d’un modèle consiste à déterminer dans quelle mesure celui-ci prédit les résultats à partir des seules données historiques. Le back-testing, quant à lui, analyse les performances qu’aurait eues le modèle dans un scénario réel passé et peut également être effectué sur des données historiques fictives. Comparé à l’évaluation, le back-testing est souvent utilisé dans la finance ou la modélisation des risques, mais beaucoup moins dans les études sur les migrations. Il consiste simplement à appliquer le modèle à des données historiques sans le réentraîner, en imitant la prise de décision en temps réel et en vérifiant si cela aurait conduit à des résultats efficaces.
Back-testing classique pour les modèles de prévision
Rolling Forecast Origin: Bergmeir et al. (2016[21]) traitent de la validation par « origine glissante » pour les modèles de séries chronologiques. Elle prend deux formes : la division des données en fenêtres glissantes pour évaluer les prévisions de manière itérative sur différentes périodes, ou le test de la capacité des modèles à généraliser dans le temps et à s’ajuster aux variations saisonnières ou aux ruptures structurelles. Il s’agit d’un mélange entre la validation intertemporelle de Tashman (2000[20]) et la méthode adaptative décrite dans Carammia et al. (2022[16]).
Diagnostics de modèles dans les modèles ML/Stat
Analyse des résidus : Durbin et Koopman (2012[22]) présentent une introduction générale aux diagnostics des résidus pour les modèles statistiques de séries chronologiques. Ces diagnostics évaluent si les résidus sont du bruit blanc (non corrélés, suivant une distribution normale, avec une variance constante). Ils peuvent également détecter le surajustement en analysant les modèles résiduels sur les données d’apprentissage et de validation. Cela peut être considéré comme une extension du diagnostic d’erreur (Chatfield, 2000[14]).
Validation contrefactuelle : Pearl (2009[23]) fournit des méthodes fondamentales pour la validation contrefactuelle dans la modélisation causale. Les modèles causaux sont utilisés pour évaluer des scénarios contrefactuels (par exemple, simuler des scénarios de référence sans changement de politique). La validation contrefactuelle ne convient pas aux modèles qui appliquent de nombreux prédicteurs.
Checklist:
Le back-testing est-il appliqué dans les études de prévision des migrations ?
Bien que sous-utilisé, le back-testing peut fournir des informations précieuses sur la fiabilité des modèles et devrait être plus largement adopté.
Ai-je utilisé le back-testing pour évaluer les performances du modèle sur des périodes historiques ?
Le back-testing applique le modèle à des données passées afin d’évaluer dans quelle mesure il aurait pu prédire des résultats connus.
Comment les connaissances d’experts et les scénarios peuvent-ils être testés rétrospectivement?
Copier le lien de Comment les connaissances d’experts et les scénarios peuvent-ils être testés rétrospectivement?Les connaissances d’experts ne font généralement pas l’objet de back-testing, et on ne s’attend généralement pas à ce qu’elles le fassent, contrairement à ce qui se fait habituellement pour les modèles statistiques ou d’apprentissage automatique. Les connaissances d’experts impliquent souvent des jugements subjectifs, des apports qualitatifs ou des conditions hypothétiques qui ne se sont peut-être jamais produites dans le passé et qui ne se produiront peut-être jamais à l’avenir. Bien qu’il n’existe pas de littérature définitive sur ce point, les connaissances spécialisées peuvent être soumises à des tests de résistance ou validées à l’aide d’analogies historiques, de simulations ou d’analyses comparatives. Plus précisément, un cadre de validité peut être discuté dans les termes suivants :
i. Alignement historique : si un événement passé ressemble étroitement à un scénario défini par un expert, il serait possible de vérifier si le raisonnement de l’expert aurait conduit à des prévisions exactes sur la base des résultats historiques ;
ii. Analyse contrefactuelle : à l’aide de données passées, il serait possible de tester des scénarios hypothétiques en modifiant certaines variables afin de voir si les conclusions des experts auraient correctement anticipé d’autres résultats ;
iii. Back-testing basé sur la simulation : si les données historiques ne sont pas disponibles pour un scénario, des simulations de Monte Carlo ou des ABM peuvent être utilisés pour générer des résultats possibles et tester les hypothèses des experts dans des conditions variables ;
iv. Benchmarking par rapport aux prévisions du modèle : comparaison des conclusions des experts avec des modèles statistiques appliqués aux données passées afin de mettre en évidence les incohérences et/ou d’affiner les hypothèses.
Une exception notable dans la littérature est celle d’Imbens et Rubin (2015[24]), qui fournissent les simulations causales de base pour l’évaluation des interventions. La validation par rapport à des scénarios historiques sélectionnés par des experts garantit que le comportement du modèle correspond aux résultats attendus.
Synthetic Scenario Testing: Fraccascia et al. (2018[25]) explorent les tests de scénarios dans des conditions synthétiques dans le cadre de la modélisation de systèmes complexes. Des idées similaires peuvent être appliquées au contexte des prévisions migratoires, par exemple en construisant des scénarios synthétiques reflétant des conditions futures plausibles (par exemple, ralentissements économiques, chocs climatiques) et en évaluant les réponses du modèle.
Interventions simulées : la robustesse des modèles peut être testée en introduisant des interventions artificielles (par exemple, en introduisant des changements politiques hypothétiques) et en comparant les résultats aux attentes des experts. Voir à nouveau Imbens et Rubin (2015[24]).
Retour d’information sollicité auprès d’experts : Tetlock et Gardner (2015[11]) est une référence classique qui souligne comment les connaissances des experts peuvent améliorer l’évaluation des modèles grâce à un retour d’information structuré et à l’élaboration de scénarios. L’exécution de modèles avec et sans les caractéristiques ou contraintes suggérées par les experts permet d’évaluer l’impact sur la précision et l’explicabilité.
Checklist:
Ai-je envisagé de tester l’influence des connaissances des experts sur le modèle ?
Bien que les contributions des experts soient rarement testées a posteriori, il est important d’évaluer leur impact dans la mesure du possible. En exécutant le modèle dans les deux configurations pour évaluer comment les connaissances des experts affectent l’exactitude et la puissance prédictive.
Encadré 7.2. Comment les États-Unis évaluent leurs prévisions ?
Copier le lien de Encadré 7.2. Comment les États-Unis évaluent leurs prévisions ?Le Centre d’analyse des migrations (MAC) du Bureau des statistiques sur la sécurité intérieure (OHSS) des États-Unis procède à divers types d’évaluations afin de prévoir les migrations irrégulières à la frontière sud-ouest entre les États-Unis et le Mexique.
Tout d’abord, des évaluations historiques sont réalisées afin de comparer les prévisions aux résultats réels sur une base continue, mois par mois. Ces évaluations utilisent des statistiques pour évaluer à la fois la précision (erreur absolue médiane en pourcentage) et le biais (erreur médiane en pourcentage), ainsi que les performances globales pour une période pouvant aller jusqu’à six mois. En général, les prévisions à un mois sont les plus précises, par rapport à celles à trois ou six mois. Toutefois, dans certains cas, l’erreur absolue médiane en pourcentage peut être plus faible pour les prévisions à six mois s’il y a eu une volatilité importante des rencontres, ce qui rend les prévisions précises encore plus difficiles. Des diagnostics sont utilisés pour identifier les sous-groupes présentant le plus grand potentiel d’amélioration et pour tester les ajustements du modèle avant de mettre en œuvre les changements. Par exemple, l’OHSS MAC a identifié Cuba, Haïti, le Nicaragua et le Venezuela (CHNV) comme des pays où les modèles devaient être améliorés. En janvier 2023, le MAC OHSS a supprimé la composante tendancielle des modèles pour ces quatre pays, ce qui a permis d’améliorer la précision des prévisions. Si des fluctuations ponctuelles, telles que les vagues migratoires vénézuéliennes au début de 2023, peuvent encore passer inaperçues, les modèles s’adaptent aux nouvelles réalités après deux à trois mois de changement dans les tendances migratoires.
En outre, des évaluations sont effectuées en milieu de mois afin de comparer les prévisions à un mois avec les données réelles pour ce mois, extrapolées à partir de la moyenne quotidienne du mois en cours. Enfin, les évaluations comparatives des modèles permettent d’évaluer les performances historiques de plusieurs spécifications de modèles. Les intervalles de confiance sont calculés à l’aide de la formule des intervalles de prévision du module de prévision dans R. Cependant, l’hypothèse d’une incertitude croissante au fil du temps, typique d’un véritable intervalle de prévision, n’est pas appliquée. Étant donné que ces limites d’intervalle sont principalement utilisées pour les projections ou les lignes de planification, la maximisation de la précision des intervalles n’a pas été une priorité.
Références
[8] Azose, J. et A. Raftery (2015), « Bayesian Probabilistic Projection of International Migration », Demography, vol. 52/5, pp. 1627-1650, https://doi.org/10.1007/s13524-015-0415-0.
[18] Barredo Arrieta, A. et al. (2020), « Explainable Artificial Intelligence (XAI): Concepts, taxonomies, opportunities and challenges toward responsible AI », Information Fusion, vol. 58, pp. 82-115, https://doi.org/10.1016/j.inffus.2019.12.012.
[21] Bergmeir, C., R. Hyndman et J. Benítez (2016), « Bagging exponential smoothing methods using STL decomposition and Box–Cox transformation », International Journal of Forecasting, vol. 32/2, pp. 303-312, https://doi.org/10.1016/j.ijforecast.2015.07.002.
[7] Bijak, J. (2011), Forecasting International Migration in Europe: A Bayesian View, Springer Netherlands, Dordrecht, https://doi.org/10.1007/978-90-481-8897-0.
[6] Bijak, J. et al. (2019), « Assessing time series models for forecasting international migration: Lessons from the United Kingdom », Journal of Forecasting, vol. 38/5, pp. 470-487, https://doi.org/10.1002/for.2576.
[17] Bontempi, G., S. Ben Taieb et Y. Le Borgne (2013), « Machine Learning Strategies for Time Series Forecasting », dans Lecture Notes in Business Information Processing, Business Intelligence, Springer Berlin Heidelberg, Berlin, Heidelberg, https://doi.org/10.1007/978-3-642-36318-4_3.
[10] Brier, G. (1950), « Verification of Forecasts Expressed in Terms of Probability », Monthly Weather Review, vol. 78/1, pp. 1-3.
[9] Bröcker, J. et L. Smith (2007), « Increasing the Reliability of Reliability Diagrams », Weather and Forecasting, vol. 22/3, pp. 651-661, https://doi.org/10.1175/waf993.1.
[16] Carammia, M., S. Iacus et T. Wilkin (2022), « Forecasting asylum-related migration flows with machine learning and data at scale », Scientific Reports, vol. 12/1, https://doi.org/10.1038/s41598-022-05241-8.
[14] Chatfield, C. (2000), Time-Series Forecasting, Chapman and Hall/CRC, https://doi.org/10.1201/9781420036206.
[5] Czado, C., T. Gneiting et L. Held (2009), « Predictive Model Assessment for Count Data », Biometrics, vol. 65/4, pp. 1254-1261, https://doi.org/10.1111/j.1541-0420.2009.01191.x.
[25] De Domenico, M. (dir. pub.) (2018), « Resilience of Complex Systems: State of the Art and Directions for Future Research », Complexity, vol. 2018/1, https://doi.org/10.1155/2018/3421529.
[22] Durbin, J. et S. Koopman (2012), Time Series Analysis by State Space Methods, Oxford University Press, https://doi.org/10.1093/acprof:oso/9780199641178.001.0001.
[4] Gneiting, T., F. Balabdaoui et A. Raftery (2007), « Probabilistic Forecasts, Calibration and Sharpness », Journal of the Royal Statistical Society Series B: Statistical Methodology, vol. 69/2, pp. 243-268, https://doi.org/10.1111/j.1467-9868.2007.00587.x.
[12] Gneiting, T. et A. Raftery (2007), « Strictly Proper Scoring Rules, Prediction, and Estimation », Journal of the American Statistical Association, vol. 102/477, pp. 359-378, https://doi.org/10.1198/016214506000001437.
[1] Hyndman, R. et G. Athanasopoulos (2018), Forecasting: Principles and Practice, OTexts.
[2] Hyndman, R. et A. Koehler (2006), « Another look at measures of forecast accuracy », International Journal of Forecasting, vol. 22/4, pp. 679-688, https://doi.org/10.1016/j.ijforecast.2006.03.001.
[24] Imbens, G. et D. Rubin (2015), Causal Inference for Statistics, Social, and Biomedical Sciences, Cambridge University Press, https://doi.org/10.1017/cbo9781139025751.
[19] Kilian, L. et H. Lütkepohl (2017), Structural Vector Autoregressive Analysis, Cambridge University Press, https://doi.org/10.1017/9781108164818.
[23] Pearl, J. (2009), Causality: Models, Reasoning and Inference (, Cambridge University Press, USA.
[3] Runge, J. et al. (2023), « Causal inference for time series », Nature Reviews Earth & Environment, vol. 4/7, pp. 487-505, https://doi.org/10.1038/s43017-023-00431-y.
[20] Tashman, L. (2000), « Out-of-sample tests of forecasting accuracy: an analysis and review », International Journal of Forecasting, vol. 16/4, pp. 437-450, https://doi.org/10.1016/s0169-2070(00)00065-0.
[11] Tetlock, P. et D. Gardner (2015), Superforecasting: The Art and Science of Prediction, New York: Crown.
[13] Welch, N. et A. Raftery (2022), « Probabilistic forecasts of international bilateral migration flows », Proceedings of the National Academy of Sciences, vol. 119/35, https://doi.org/10.1073/pnas.2203822119.
[15] Zou, H. et T. Hastie (2005), « Regularization and Variable Selection Via the Elastic Net », Journal of the Royal Statistical Society Series B: Statistical Methodology, vol. 67/2, pp. 301-320, https://doi.org/10.1111/j.1467-9868.2005.00503.x.