Une fois le modèle de prévision approprié sélectionné (Chapitre 4, Graphique 4.1), l’identification des données pertinentes devient plus simple. Dans certains cas, le modèle lui-même est basé sur les données, comme dans le cas des approches d’apprentissage automatique, ou sa forme fonctionnelle est déterminée par la disponibilité des données. Cependant, au-delà de considérations telles que la catégorie de migration et l’horizon temporel, d’autres dimensions cruciales doivent être prises en compte lors de la sélection des données appropriées (Graphique 5.1).
Anticiper et se préparer aux flux migratoires
5. Quelles sont les données nécessaires à la réalisation de prévisions ?
Copier le lien de 5. Quelles sont les données nécessaires à la réalisation de prévisions ?Graphique 5.1. Arbre décisionnel d’identification des meilleures données selon les modèles de prévision des migrations
Copier le lien de Graphique 5.1. Arbre décisionnel d’identification des meilleures données selon les modèles de prévision des migrations
Comment évaluer les sources de données existantes ?
Copier le lien de Comment évaluer les sources de données existantes ?Des données fiables constituent la base des prévisions en matière de migration. Cependant, les données sur la migration souffrent souvent de lacunes, d’une qualité et d’une disponibilité inégales, et parfois d’une discontinuité. Parmi les contraintes les plus sérieuses figurent la rapidité de disponibilité et la fréquence. La plupart des collectes de données, quelle que soit la catégorie de migration, sont publiées plusieurs semaines ou mois après la période de référence, ce qui les rend peu utiles pour les prévisions à court terme. De même, de nombreuses sources de données sont disponibles à un niveau annuel ou mensuel, ce qui peut là encore ne pas correspondre à la granularité de certains types de prévision. Plus généralement, à mesure que des modèles statistiques de plus en plus sophistiqués deviennent disponibles, ainsi que les logiciels et les capacités de calcul nécessaires, les données peuvent devenir la principale contrainte pour les exercices de prévision. Cette sous-section fournit un cadre permettant d’évaluer les sources de données existantes, en s’assurant qu’elles répondent aux exigences de qualité et de disponibilité nécessaires à des prévisions fiables.
Les données utilisées pour les prévisions, quels que soient leur type et leur provenance, doivent faire l’objet d’une évaluation de leur qualité, non seulement pour mesurer les différents problèmes susceptibles d’avoir une incidence sur les prévisions, mais aussi pour évaluer l’incertitude de mesure associée qui peut se répercuter sur les prévisions. Afin de permettre des comparaisons et d’améliorer la reproductibilité, cette évaluation peut suivre un protocole normalisé, adapté si nécessaire aux besoins spécifiques et aux tâches de prévision. Ce protocole comprendrait notamment la création de méta‑informations standardisées sur les données. La constitution et la documentation de l’inventaire permettent non seulement de fournir des informations cruciales sur l’incertitude de mesure, mais aussi d’assurer la continuité des processus de prévision, par exemple à la suite de changements de personnel, et de garantir la qualité.
L’évaluation de la qualité des données permet également de mieux identifier les lacunes dans les séries de données. Ces lacunes ne doivent pas être considérées comme des obstacles insurmontables, mais comme des opportunités d’amélioration. En effet, les lacunes peuvent être comblées en améliorant la collecte des données, en utilisant d’autres sources de données pertinentes ou en recourant à des techniques statistiques (telles que les imputations). Si le partage des données fait partie du processus de collecte, il peut également être amélioré grâce à des contacts plus réguliers avec les fournisseurs de données, à des accords de partage des données et à des discussions précises sur les avantages d’un meilleur partage des données tant pour les fournisseurs que pour les utilisateurs. À l’avenir, l’évaluation des lacunes dans les données pourra servir d’argument pour améliorer les infrastructures de données. Afin de soutenir ces actions, les ressources financières doivent être investies de manière précise et organisée, en commençant par les lacunes les plus problématiques qui empêchent le modèle de prévision d’être pleinement efficace.
Bien que les exigences de qualité dépendent des objectifs de l’exercice de prévision (principalement le type de migration et l’horizon de prévision), l’approche de l’assurance qualité peut être similaire, quelle que soit la catégorie de migration. La première étape consiste à sélectionner les principaux critères, qui peuvent être résumés dans une matrice d’évaluation. Les critères importants qui seront probablement pertinents pour la plupart des exercices de prévision sont les définitions, la fréquence, la couverture, l’exactitude, l’actualité, la granularité et la continuité des données disponibles (pour une approche similaire, voir Bijak, Forster et Hilton (2017[1])).
Définitions : quel est l’objet de la mesure et dans quelle mesure les indicateurs sont-ils clairement définis ? Les définitions des données font référence aux descriptions ou spécifications qui expliquent la signification, le format et la structure des éléments de données dans un ensemble de données.
Fréquence : à quelle fréquence les points de données sont-ils collectés ou enregistrés au cours d’une période donnée ? La fréquence des données détermine la granularité et la résolution temporelle d’un jeu de données.
Couverture : dans quelle mesure le jeu de données capture‑t-il les informations pertinentes dans des dimensions spécifiques, telles que le temps, la géographie, la population ou les domaines thématiques ? La couverture détermine dans quelle mesure un jeu de données représente de manière exhaustive le phénomène qu’il vise à décrire.
Exactitude : dans quelle mesure le jeu de données représente‑t-il correctement les phénomènes ou les conditions réels qu’il vise à décrire ? Les données comportent presque toujours un certain degré d’incertitude, mais peuvent être plus ou moins transparentes quant aux biais qu’elles peuvent présenter.
Actualité : dans quelle mesure les données sont-elles disponibles et à jour par rapport au cas d’utilisation ? L’actualité dépend de la rapidité avec laquelle les données sont collectées, traitées et rendues accessibles après un événement ou une observation. Des données actualisées peuvent être essentielles pour les prévisions à court terme, mais pas nécessairement pour les projections à plus long terme.
Granularité : quel est le niveau de détail requis ? Par exemple, les prévisions en matière de migrations de travail peuvent nécessiter des données ventilées par secteur d’activité, par profession et, pour certains pays, par région (voir l’encadré 8.2 pour un exemple). Les prévisions relatives aux demandes d’asile peuvent nécessiter non seulement des informations sociodémographiques, mais aussi le dernier pays de résidence (de transit) afin de garantir l’exactitude des estimations.
Continuité : aurons-nous également accès aux données à l’avenir ? Parfois, des facteurs externes – tels que l’évolution des technologies de collecte de données, des plateformes logicielles, des priorités institutionnelles ou des financements – peuvent affecter la disponibilité continue des données. En outre, les caractéristiques des données (au regard de tous les critères précédents) resteront-elles stables dans le temps ?
Des métadonnées plus détaillées peuvent également inclure leur type (sont-elles directement liées à la migration ou à ses facteurs déterminants (variables contextuelles), les méthodes de collecte, en plus d’une évaluation multidimensionnelle de la qualité selon un ensemble de critères prédéfinis (Nurse, Hinsch et Bijak, 2023[2]). Les données actuellement utilisées par les pays de l’OCDE pour leurs prévisions, décrites dans le Tableau 5.1, peuvent être évaluées de manière systématique sur la base de ces critères.
Le compromis le plus important à faire est probablement celui entre l’actualité (qui va toujours de pair avec la fréquence) et la précision. Les indicateurs précis sont soumis à des protocoles stricts en matière de collecte, de validation et de normalisation, qui nécessitent beaucoup de temps et d’efforts. À l’inverse, les données très actuelles peuvent être soumises à des procédures d’évaluation de la qualité limitées. La granularité des données peut également être inversement proportionnelle à l’exactitude et à l’actualité, car des données plus détaillées peuvent être plus difficiles à obtenir rapidement et de manière fiable.
Tableau 5.1. Quelles sont les sources de données actuellement utilisées dans les pays de l’OCDE et par les organisations et agences internationales pour prévoir les flux migratoires ?
Copier le lien de Tableau 5.1. Quelles sont les sources de données actuellement utilisées dans les pays de l’OCDE et par les organisations et agences internationales pour prévoir les flux migratoires ?|
Institution |
Catégorie de migration |
Variables incluses |
|
|---|---|---|---|
|
Quantitatives |
Qualitatives |
||
|
Frontex (CIRAM) |
Franchissements de frontières |
Rapports sur les franchissements illégaux des frontières par points d’entrée ; rapports nationaux sur les détections de séjours irréguliers, les détections de passeurs, les interpellations de migrants en situation irrégulière, les refus d’entrée, les demandes d’asile, les détections d’utilisateurs de documents frauduleux, les marchandises de contrebande, les décisions de retour, les retours effectifs, les flux de passagers, les données provenant du VIS (système d’information sur les visas), du SIS (système d’information Schengen) et d’Eurodac ; rapports des aéroports sur les flux de passagers, nombre d’agents aux frontières, informations sur le profil des passagers (pays d’origine, motif d’entrée dans le pays, détails du voyage, moyens de transport), rapports de police sur les informations issues des fichiers de police concernant les crimes transfrontaliers (provenant des rapports EUROSUR et des États membres (EM) de l’UE : personnes recherchées, casiers judiciaires, renseignements, vols de documents), rapports de renseignement sur la situation dans les pays tiers (facteurs d’attraction, crise économique, incidents majeurs ou mineurs, difficulté des itinéraires, menaces pour la santé), situation aux frontières (telles que les informations sur les objectifs, les motivations, le mode opératoire et les capacités des passeurs ; les conditions météorologiques ; compétences du personnel des EM de l’UE, équipement, pratiques opérationnelles à la frontière, interopérabilité) et situation dans les EM de l’UE (changements de politique, facteurs d’attraction, procédures à la frontière, efficacité des contre‑mesures) |
|
|
Allemagne |
Données sur les migrations |
Données d’événements, données textuelles non structurées) |
|
|
États-Unis MAC |
Chiffres d’interceptions du gouvernement mexicain / Taux de chômage aux États-Unis / Transferts de fonds (Mexique, Guatemala, Colombie, Nicaragua) / Ratio d’expulsions par rapport aux interceptions de « Titre 8 ». |
Décès dus à des violences contre des civils dans le pays d’origine/Décès dus à d’autres violences dans le pays d’origine)/Catastrophes Ajustements subjectifs effectués par des experts sur le sujet (SME) |
|
|
Belgique |
Demandes d’asile |
Demandes d’asile |
Avis d’experts des pays d’origine, d’autres États membres de l’UE et d’experts en analyse |
|
EUAA |
Demandes d’asile |
Avis d’experts d’autres États membres de l’UE |
|
|
France |
Demandes d’asile, statistiques « Dublin » |
Avis d’experts du ministère de l’Intérieur et du ministère des Affaires étrangères recueillis lors de réunions trimestrielles, avec des contributions issues des rapports de l’EUAA, des rapports de Frontex sur les franchissements irréguliers de frontières (IBC), des rapports de la police des frontières française sur les franchissements des frontières, des rapports par pays du ministère des Affaires étrangères et des rapports de l’Office français de protection des réfugiés et apatrides |
|
|
Allemagne |
Demandes d’asile |
||
|
Irlande |
Demandes d’asile |
||
|
Pays-Bas |
Demandes d’asile |
Avis d’experts (autres pays membres de l’UE) |
|
|
Norvège |
Demandes d’asile, franchissements irréguliers de frontières dans les pays de l’UE, différents indicateurs dans les pays d’origine et itinéraires du trafic |
||
|
Pologne |
Demandes d’asile |
Avis d’experts |
|
|
Suisse |
Situation dans les pays d’origine, situation sur les routes migratoires, situation économique dans les pays de transit, mesures prises par les pays européens de destination en matière de migration (asile), mesures prises par la Suisse en matière de migration (asile), mise en œuvre de la Convention de Dublin et du Pacte européen sur la migration et l’asile par la Suisse |
||
|
États-Unis CIS |
Migrations familiales |
Demandes basées sur la famille, par type de famille |
Ajustements qualitatifs fondés sur des changements récents de procédure ou de politique |
|
Australie |
Migrations de travail |
Consultations bilatérales, par ex. avec le ministère du Trésor, d’autres administrations fédérales, les administrations des États et Territoires, les chercheurs |
|
|
Japon |
PIB prévu, stock de capital, population active de référence, taux de croissance du PIB par habitant par pays, population totale par pays, nombre de travailleurs étrangers venant au Japon (flux bruts et nets) |
Scénario basé sur une automatisation accrue |
|
|
Corée |
Offre de travail par sexe, âge, niveau d’études, secteur et profession, croissance de la productivité, changements technologiques |
Scénarios basés sur la substituabilité de la main-d’œuvre entre secteurs et niveaux de compétences |
|
|
Pologne |
Permis de travail |
Recherche qualitative, utilisant notamment les intentions de migration dans les principaux pays/régions d’origine |
|
|
Türkiye |
Avis d’experts provenant d’institutions publiques, d’organisations internationales, du monde académique et des partenaires sociaux |
||
|
Canada |
Toutes les catégories de flux réglementés |
Les prévisions de la demande utilisent un mélange de données opérationnelles de l’IRCC, qui sont disponibles quotidiennement et peuvent être regroupées en séries chronologiques hebdomadaires ou mensuelles, et de données externes provenant d’organisations telles que Statistique Canada, Transports Canada, l’Association internationale du transport aérien (IATA), le Conference Board du Canada et Oxford Economics. Pour la modélisation, on utilise généralement des séries chronologiques mensuelles. Ces ensembles de données externes offrent un large éventail d’indicateurs socio-économiques accessibles grâce à des abonnements institutionnels. Selon la source, les informations peuvent être publiées annuellement ou mensuellement et sont mises à jour tous les mois ou tous les trimestres. Les indicateurs comprennent des mesures économiques qui influencent les tendances en matière de voyages par le biais de changements dans les conditions financières et le comportement des consommateurs, ainsi que des mesures sociales et géopolitiques, car les conflits, les perturbations et autres événements imprévus peuvent fortement influencer les habitudes de voyage à l’échelle mondiale. Pris ensemble, ces éléments fournissent une meilleure vue d’ensemble et contribuent à améliorer la précision des prévisions. |
La prévision de la demande intègre un large éventail de données qualitatives qui viennent compléter les données quantitatives. Cela comprend une collaboration structurée avec des experts en la matière, une analyse de l’environnement pour identifier les nouvelles tendances et l’examen des rapports sur les voyages à l’étranger. Ces informations proviennent de plusieurs sources fiables, telles que Statistique Canada, Transports Canada, l’Association internationale du transport aérien (IATA), le Conference Board du Canada et Oxford Economics, qui fournissent des renseignements sur le secteur et des perspectives socio-économiques influençant les comportements en matière de voyage. Ensemble, ces éléments qualitatifs contribuent à établir une vision plus complète et prospective de la demande future. |
|
France |
Titres de séjour par motif |
||
|
Norvège |
Titres de séjour par motif |
||
|
Finlande* |
Données quantitatives sur l’environnement opérationnel et facteurs déterminants de l’immigration |
Données qualitatives sur l’environnement opérationnel et facteurs déterminants de l’immigration. Avis d’experts du ministère de l’Intérieur recueillis par une équipe de prospective |
|
|
Suède |
Demandes d’asile, titres de séjour par motif |
Scénarios préparés par des experts |
|
|
Royaume‑Uni |
Statistiques de migration internationale à long terme par motif (visas, ressortissants britanniques), taux de maintien à long terme |
Scénarios portant sur des changements de politique migratoire et la situation dans les pays d’origine |
|
* Migrations familiales exclues.
Checklist:
Quelles sources de données dois-je mobiliser auprès d’autres ministères ou de prestataires de services privés?
L’accès aux données est-il garanti dans le temps ?
Il peut être nécessaire d’anticiper les changements dans les technologies de collecte de données, les plateformes logicielles, les priorités institutionnelles, la structure des bases de données ou le financement.
Quel est le niveau de qualité et de granularité des données ? Peut-il être amélioré ?
Le niveau de qualité et de granularité a une incidence sur le choix du modèle. S’il empêche le modèle d’être pleinement efficace, il peut être nécessaire d’améliorer la collecte des données et les infrastructures.
Les données sont-elles disponibles dans des délais similaires ?
La fréquence des données et les différences en termes de délais et de disponibilité des données (année civile ou année fiscale, données définitives ou provisoires) déterminent la fréquence des prévisions.
Où trouver et comment intégrer les données qualitatives ?
Copier le lien de Où trouver et comment intégrer les données qualitatives ?Les données qualitatives sont depuis longtemps considérées comme des informations non numériques décrivant les qualités, les caractéristiques ou les attributs d’un phénomène donné. À ce titre, elles capturent les aspects subjectifs et souvent contextuels d’une question, fournissant des informations sur le pourquoi et le comment des comportements, des attitudes et des processus. Les modèles d’analyse de texte permettent toutefois de quantifier des données traditionnellement non numériques. De plus, l’explosion des informations en ligne et la disponibilité croissante des capacités de calcul ont permis d’accéder à de grands volumes de données traditionnellement qualitatives (souvent en temps réel). C’est le cas, par exemple, des traces numériques laissées par divers types de comportements, y compris les déplacements humains. En conséquence, les « données qualitatives » sont de plus en plus utilisées pour décrire des données provenant de sources non numériques, mais qui peuvent être (et sont souvent) converties en quantités numériques.
Les données qualitatives peuvent fournir des informations essentielles sur les facteurs de migration, complétant ainsi les ensembles de données quantitatives. Les principales sources comprennent les sources numériques, les connaissances d’experts et les informations telles que les rapports et les questions ouvertes dans les enquêtes. Parmi les sources numériques potentiellement pertinentes pour les prévisions en matière de migration, on trouve les données sur les événements, l’imagerie satellite, les données de recherche sur le web, les données sur les passagers aériens ou les données des médias sociaux. Les pays de l’OCDE ont été lents à les utiliser à des fins de prévision (Tableau 5.1). Cependant, chacun de ces types de données peut fournir des informations permettant de prévoir toutes les catégories de migration, en particulier pour les phénomènes de migration forcée plus complexes. Elles peuvent être utilisées comme indicateurs des motivations ou des intentions de migrer, de la mobilité réelle, des déplacements, des attitudes, des transactions financières, etc. (pour des analyses récentes, voir Cesare et al. (2018[3]), Sirbu et al. (2020[4]), Iacus et al. (2022[5])).
Les données relatives aux recherches en ligne ont été utilisées soit isolément (Böhme, Gröger et Stöhr, 2020[6]) pour prédire les migrations internationales totales, soit combinées à d’autres (Carammia, Iacus et Wilkin, 2022[7]) pour prédire les demandes d’asile. Ces données sont mises à disposition gratuitement par Google Trends (https://trends.google.com/) et peuvent être consultées via des tableaux de bord conviviaux et téléchargées sous forme de tableaux. Les principaux paramètres pouvant être définis comprennent les mots-clés (ou les thèmes, ensembles de mots-clés pré-agrégés qui ont l’avantage d’être insensibles à la langue), la localisation (au niveau national ou infranational) et la période considérée. D’autres données numériques pertinentes pour la modélisation des migrations sont celles qui concernent les événements dans le monde. Deux sources reconnues de ce type de données sont la base de données mondiale sur les événements, les langues et le ton (GDELT) et le projet de données sur les lieux et les événements de conflits armés (ACLED). GDELT (https://www.gdeltproject.org/) est un recueil contenant un grand nombre de types d’événements géolocalisés et codés par contenu, rapportés dans les médias audiovisuels, la presse écrite et les médias en ligne du monde entier, dans plus de 100 langues. L’ACLED collecte et analyse également des données sur les violences politiques et les manifestations dans le monde entier (voir Encadré 5.1 pour plus de détails). Ces deux sources sont particulièrement utiles pour prévoir les migrations forcées telles que les demandes d’asile et les passages illégaux des frontières.
Encadré 5.1. Exemples de sources numériques collectant des données qualitatives
Copier le lien de Encadré 5.1. Exemples de sources numériques collectant des données qualitativesGoogle Trends
Les données Google Trends ne fournissent pas d’informations sur les niveaux absolus des recherches, mais sur les niveaux relatifs (compris entre 0 et 100). Lorsqu’un seul indicateur est sélectionné, le pic de la série représente le point de la fenêtre temporelle sélectionnée où le volume de recherches sur ce sujet est le plus élevé à ce moment-là (et dans cet espace). Les autres points sont relatifs à ce pic. Lorsque plusieurs séries sont sélectionnées, elles sont mises à l’échelle les unes par rapport aux autres. Cela signifie que pour la plupart des besoins de modélisation, les indicateurs individuels doivent être téléchargés séparément afin de pouvoir être analysés individuellement. L’exécution de l’analyse sur différentes fenêtres temporelles donne des données différentes, car si de nouveaux pics dans le volume des recherches se produisent, la série doit être remise à l’échelle. Il existe plusieurs progiciels statistiques qui prennent en charge le téléchargement (via l’API), le traitement et l’analyse des données. Parmi les progiciels R, « gtrendsR » est le plus établi et est disponible sur CRAN (https://cran.r-project.org/web/packages/gtrendsR/index.html). Parmi les progiciels plus récents, on trouve « trendecon » (https://trendecon.github.io/trendecon/index.html) ou « gtrendsAPI » (Correia, 2024[8]).
GDELT
GDELT permet le suivi en temps réel des événements, l’analyse des sentiments et la cartographie géospatiale des crises ou des tendances. La méthodologie de GDELT met l’accent sur la couverture, l’automatisation et l’adaptabilité. Les sources de données comprennent divers médias d’information mondiaux, y compris les organes de presse traditionnels et les blogs. L’ingestion de données dans GDELT est continue, avec des mises à jour toutes les 15 minutes. La collecte de données est entièrement automatisée et repose sur le scraping du contenu des sources médiatiques suivies, le contenu non anglais étant traduit automatiquement. Les événements sont identifiés et codés à l’aide d’algorithmes de traitement de texte, avec des codes pertinents décrivant le type d’événement, son emplacement, les acteurs impliqués et même la tonalité à partir de l’analyse des sentiments. L’approche largement automatisée de la collecte et du codage des données se traduit par une couverture, une fréquence et une actualité élevées. Cela peut nuire à l’exactitude, bien que les données puissent être inspectées a posteriori par les utilisateurs, car chaque observation fournit un lien vers l’article d’actualité original (les liens sont cependant parfois rompus). Une autre source potentielle de biais est la sous-déclaration dans les régions les moins dotées en médias (et la surdéclaration dans les régions très dotées), en plus des biais habituels dans la couverture et le ton des sources médiatiques. GDELT donne accès à son API, et des packages R sont disponibles pour interroger et analyser les deux plateformes. GDELT permet également une analyse directe via Google BigQueries. L’EUAA a déjà agrégé les données GDELT pertinentes pour la migration liée à l’asile dans un indicateur composite, appelé Push Factor Index (PFI).
ACLED
Sa méthodologie met l’accent sur une couverture complète, une granularité élevée et une validation systématique afin de fournir des données fiables en temps réel. Les sources de données comprennent les reportages des médias, les réseaux partenaires, les publications universitaires et de recherche, les médias sociaux et les rapports gouvernementaux et internationaux. Le processus de collecte des données comprend des protocoles plus rigoureux pour l’identification, le codage, la validation et le contrôle qualité des événements, avec la participation de chercheurs humains. Les données sont mises à jour chaque semaine. Bien que cela ne soit pas comparable à GDELT à cet égard, cette rapidité reste impressionnante compte tenu des efforts de validation, et peut être suffisante pour la plupart des tâches de prévision en matière de migration forcée, à l’exception bien sûr des alertes précoces et des prévisions à très court terme.
L’ACLED donne accès à ses API, et des packages R sont disponibles pour interroger et analyser les deux plateformes. Le GDELT permet également une analyse directe via Google BigQueries.
1. Voir par exemple GDELTtools (https://cran.r-project.org/web/packages/GDELTtools/index.html).
2 Voir par exemple acled.api (https://cran.r-project.org/web/packages/acled.api/index.html) et acledR (https://github.com/dtacled/acledR).
Les plateformes de réseaux sociaux, notamment Twitter/X, Facebook, Instagram ou Linkedin, constituent d’autres sources numériques importantes de données qualitatives (Iacus et al., 2022[5]). Les applications peuvent inclure l’analyse de sentiments pour mesurer les intentions migratoires ou les attitudes à l’égard des politiques ou des événements migratoires ; le suivi ou la prévision à court terme des stocks et des flux (Zagheni et al., 2014[9]) ou des données publicitaires, qui se sont avérées capables d’anticiper les mouvements migratoires (Minora et al. (2022[10]), Zagheni, Weber et Gummadi (2017[11])).
Les défis et les limites des données issues des réseaux sociaux et des sources numériques comprennent les questions de confidentialité des données, les biais et la représentativité, ainsi que le bruit (Iacus et al., 2022[5]). En particulier, les données issues du web scraping ou des API peuvent ne pas être entièrement anonymisées, ce qui peut entraîner une violation de la confidentialité des données personnelles. Les définitions de la population et de la migration dans les sources numériques ne sont généralement pas conformes à la définition des statistiques officielles. De plus, il reste difficile d’évaluer pleinement la représentativité de ces sources, étant donné que ces outils ne sont pas utilisés par l’ensemble de la population couverte (biais de sélectivité) et que leur utilisation peut évoluer au fil du temps en raison des changements technologiques ou de l’évolution du public cible. Plus généralement, l’utilisation de ces sources peut également varier considérablement d’un pays à l’autre, ce qui ne garantit pas toujours la comparabilité entre les pays de destination et d’origine.
Un autre défi important est l’instabilité réglementaire et politique des médias sociaux et des données numériques (Iacus et al., 2022[5]). Le partage de données entre les entreprises privées et les institutions publiques et de recherche varie considérablement et ne va pas de soi. Les plateformes peuvent modifier leur politique d’accès aux données à tout moment. Un bon exemple de ce risque est X, qui était très populaire parmi les chercheurs car il offrait un accès gratuit à sa base de données via une API, mais qui est soudainement passé à des abonnements payants en mai 2023, quelques semaines après un changement de propriétaire. Enfin, les sources numériques peuvent être confrontées à des problèmes techniques, tels que des coupures de courant de leurs infrastructures, qui peuvent créer des ruptures dans les séries chronologiques, comme celle rencontrée par GDELT en juillet 2025. Bien que l’utilisation de ces sources innovantes contribue à améliorer les prévisions en matière de migration, toutes ces réserves concernant la qualité de leurs données doivent être prises en compte lorsqu’on choisit de les inclure dans des modèles de prévision.
Parallèlement aux sources de données innovantes, les données qualitatives plus traditionnelles peuvent encore jouer un rôle important dans l’analyse et la prévision des migrations. Les experts peuvent être une source d’information cruciale. Outre le fait qu’ils fournissent des informations sur les processus migratoires qui peuvent aider à concevoir ou à affiner les modèles, leurs connaissances et leur intuition peuvent servir à modérer les modèles de prévision ou les alimenter directement. L’expertise qualitative sur la plausibilité des scénarios, l’attribution par des experts d’une probabilité à ces scénarios de prévision, les enquêtes Delphi et d’autres méthodes d’expertise sont abordées dans le chapitre 6 ci-dessous.
Checklist:
Quelles sortes de données qualitatives sont disponibles et/ou accessibles ?
Les sources numériques telles que Google Trends, GDELT ou ACLED sont de plus en plus utilisées dans les prévisions migratoires en tant que données qualitatives, bien que leur utilisation comporte certaines réserves quant à la qualité des données dont il faut tenir compte.
Comment quantifier les indicateurs politiques pour les modèles statistiques ?
Copier le lien de Comment quantifier les indicateurs politiques pour les modèles statistiques ?Les politiques migratoires de différents types peuvent être des prédicteurs pertinents des migrations. La quantification des indicateurs politiques permet aux analystes d’évaluer leur impact et d’intégrer ces connaissances aux modèles statistiques. Cette sous-section présente quelques approches pour identifier, mesurer et modéliser les indicateurs politiques. Elle examine leurs avantages et leurs limites et propose des moyens de les intégrer.
En tant que problème analytique, l’élaboration d’indicateurs politiques est un défi similaire à celui posé par d’autres sources qualitatives, car les informations non numériques doivent être quantifiées. Cependant, par rapport à d’autres sources qualitatives, les politiques publiques se prêtent plus facilement à une classification systématique. En effet, plusieurs projets ont permis de générer des indicateurs quantitatifs de la politique migratoire. Nous passons ici brièvement en revue les plus établis (pour une revue complète, voir Scipioni et Urso (2017[12])). Cependant, tous les ensembles de données développés dans le cadre de projets de recherche universitaires présentent une limite. Ces projets ne sont pas développés par des institutions gouvernementales et dépendent généralement d’un financement extérieur. À la fin de leur cycle de vie, soit ils obtiennent un soutien financier structurel, soit ils risquent d’être interrompus ou, au mieux, mis à jour à intervalles irréguliers.
1. IMPIC (Immigration Policies in Comparison)
IMPIC (Helbling et al., 2017[13]) quantifie le caractère restrictif des politiques d’immigration dans les pays de l’OCDE, en se concentrant sur différentes catégories de migration (http://www.impic-project.org/). Il couvre 33 pays de l’OCDE de 1980 à 2010 et contient des évaluations du caractère restrictif des politiques codées par des experts. IMPIC classe les politiques en quatre domaines (migrations de travail, regroupement familial, politiques d’asile et migration coethnique), en utilisant une échelle de 0 à 1, où 0 correspond au niveau le moins restrictif et 1 au niveau le plus restrictif. Ses points forts comprennent une couverture complète dans le temps et dans les pays, une différenciation entre les domaines politiques permettant une analyse détaillée et l’utilisation d’un système de codage structuré et transparent validé par des experts. Sa principale limite est sa couverture temporelle restreinte (1980-2010), ce qui constitue un problème important dans le contexte migratoire, car les politiques migratoires peuvent évoluer rapidement. La couverture temporelle est une limite récurrente des projets de codification développés dans le milieu universitaire, qui ne bénéficient pas d’un soutien financier externe continu pour assurer des mises à jour régulières.
2. MIPEX (Migrant Integration Policy Index)
Le MIPEX, qui évalue les politiques d’intégration des immigrés dans plusieurs domaines, est géré par une ONG. Il couvre 56 pays (principalement en Europe, mais aussi Canada, États-Unis, Australie et d’autres) et évalue les politiques dans huit domaines : la mobilité sur le marché du travail, le regroupement familial, l’éducation, la participation politique, la résidence permanente, l’accès à la nationalité, la lutte contre la discrimination et la santé (https://www.mipex.eu/). Il utilise une échelle de 100 points, où 100 indique les meilleures conditions d’intégration. Les variables clés comprennent les droits accordés aux immigrés dans chaque domaine, le cadre juridique et sa mise en œuvre, ainsi que certaines mesures politiques spécifiques (telles que la formation linguistique ou le droit de vote). Les données du MIPEX comprennent également un indicateur synthétique mesurant l’approche politique globale en matière d’intégration. Les points forts du MIPEX sont notamment sa large couverture, qui en fait l’indice d’intégration le plus complet disponible, et les comparaisons longitudinales disponibles pour de nombreux pays. Ses limites incluent le fait qu’il se concentre uniquement sur les politiques d’intégration, sans mesurer le caractère restrictif des politiques d’immigration en dehors de celles qui ont un impact sur l’intégration. Le MIPEX peut donc être particulièrement mal adapté pour quantifier les politiques d’asile ou les lois sur les migrations irrégulières. Une autre limite est son système de notation subjectif basé sur l’avis d’experts.
3. Base de données DEMIG (Determinants of International Migration)
DEMIG suit l’évolution des politiques migratoires au fil du temps, en distinguant les politiques qui deviennent plus restrictives ou plus ouvertes (http://www.migrationinstitute.org/data/demig-data/demig-policy-1). La version initialement développée par l’Institut des migrations internationales d’Oxford (de Haas, Natter et Vezzoli, 2015[14]) couvrait 45 pays pour la période 1945-2013 (et même avant pour certains pays). Récemment, l’ensemble de données a été mis à jour et étendu dans le cadre du projet QuantMig https://quantmig.eu/data_and_estimates/policy_database/), qui a publié une version couvrant 31 pays européens entre 1990 et 2020 (Schreier et al. (2023[15]) ; pour une application avec une analyse du « mix des politiques migratoires européennes », Czaika et al. (2023[16])).
Alors que pour la plupart des indicateurs politiques, le niveau d’analyse (observation unique) est un pays à un moment donné (généralement des années), dans l’ensemble de données DEMIG, chaque observation correspond à un changement de politique1. Chaque changement de politique est codé comme une politique restrictive (par exemple, introduction de restrictions en matière de visas, durcissement des politiques d’expulsion) ou libérale (par exemple, augmentation des quotas de migrations de travail). Les variables clés sont le domaine concerné (par exemple, migrations de travail, asile), le type de changement de politique (expansion ou restriction) et le mécanisme de mise en œuvre (lois, décrets, accords). Il est clair que la couverture (le nombre de pays et la profondeur historique) est un atout important de DEMIG, tout comme la qualité de la définition des catégories de politiques. La principale limite est l’absence de mesures des niveaux absolus de restriction/ouverture et l’absence d’une matrice complète des scores par pays/année. De plus, la mise à jour future de la base données n’est pas garantie, comme c’est le cas pour d’autres projets universitaires dépendant d’un financement externe.
4. Base de données sur les politiques mondiales en matière de réfugiés et d’asile (DWRAP)
La DWRAP, développé par Blair, Grossman et Weinstein (2021[17]), est la première ressource mondiale qui compile les politiques de droit en matière d’asile et de réfugiés (https://datanalytics.worldbank.org/dwrap/).
Cet ensemble de données code les lois nationales en un indice noté pertinent pour les populations déplacées de force dans 193 pays, de 1951 (année de la Convention des Nations unies relative au statut des réfugiés) à 2022. Il comprend 54 indicateurs répartis en cinq dimensions principales : l’accès au droit d’asile (facilité d’entrée et sécurité du statut, telles que la politique de non-admission, l’exclusion de droits, le séjour, les sanctions en cas d’entrée irrégulière, les droits des familles accompagnantes, le regroupement familial, la procédure d’appel, les demandes ultérieures) ; l’accès aux services (fourniture de services publics et d’aide sociale, tels que l’éducation, la formation professionnelle, les cours de langue, la discrimination positive, les soins, les frais de santé, la procédure pour les étrangers malades, les subventions, l’aide sociale) ; l’accès aux moyens de subsistance (la possibilité de travailler et de posséder des biens, tels que l’accès à l’emploi, le travail indépendant, les professions réglementées, la politique fiscale, l’accès à l’immobilier, la saisie de biens financiers, la propriété intellectuelle, les droits de location) ; déplacement (libre circulation, politiques d’installation, accès aux documents et leur coût) ; et participation à la société (citoyenneté et droits politiques, tels que la procédure de naturalisation, la durée de résidence pour accéder aux droits, la procédure applicable aux mineurs non accompagnés, le taux de participation électorale, le droit d’association). Tous les indicateurs sont compilés en cinq scores dimensionnels de base, puis en un score « global ». Contrairement à l’IMPIC ou au DEMIG, le projet DWRAP est destiné à être transféré au JDC (le Centre commun de données sur les déplacements forcés de la Banque mondiale et du HCR), ce qui permettrait des mises à jour régulières.
5. Indicateurs sur l’immigration du Département des affaires économiques et sociales des Nations Unies (UN-DESA) dans la base de données mondiale sur les politiques démographiques
Le Département des affaires économiques et sociales des Nations Unies (UN-DESA) fournit des indicateurs sur les politiques migratoires dans sa base de données mondiale sur les politiques démographiques (WPPD) (https://www.un.org/development/desa/pd/content/world-population-policies). Ces indicateurs se concentrent sur les opinions et les politiques des gouvernements en matière de migrations internationales, couvrant des aspects tels que les niveaux d’immigration, l’émigration, l’intégration et des catégories spécifiques de migrants (par exemple, les travailleurs qualifiés, les réfugiés). Cette base de données offre une couverture spatiale et temporelle complète, couvrant 195 pays et territoires depuis 1976. Cependant, il n’est mis à jour qu’environ tous les cinq ans.
Les données de l’UN-DESA se concentrent sur les perceptions et les positions politiques des gouvernements en matière de migration, ce qui signifie qu’elles ne mesurent pas directement les résultats des politiques migratoires. Les aspects clés comprennent l’immigration, l’émigration, la naturalisation, l’intégration, le contrôle aux frontières et les réfugiés. La méthodologie est basée sur les données communiquées par les gouvernements et recueillies par le biais d’enquêtes et de rapports des Nations Unies. Les mesures des objectifs politiques des gouvernements comprennent les niveaux d’immigration (augmentation, maintien, diminution), les politiques d’émigration (facilitation ou restriction des flux sortants), la migration qualifiée (attraction de travailleurs hautement qualifiés), les politiques en matière de réfugiés et d’asile, et les politiques d’intégration (citoyenneté, conditions de résidence). La base de données utilise des mesures par catégories plutôt que quantitatives continues, classant les types de politiques en trois catégories : aucune intervention (position neutre), mesures restrictives (par exemple, durcissement des règles d’immigration) et mesures libérales (par exemple, encouragement de l’immigration). En ce sens, l’approche ressemble à celle du DEMIG. Parmi les limites, on peut citer l’absence de mesures directes des politiques (les données fournissant les positions déclarées par les gouvernements eux-mêmes, ce qui peut entraîner un biais potentiel), les classifications par catégorie (et non numériques) et la granularité limitée par rapport à des données tels que celles de l’IMPIC, du MIPEX ou du DEMIG.
6. Les indicateurs de l’OCDE sur l’attractivité des talents (ITA)
Les ITA de l’OCDE constituent le premier outil complet conçu pour évaluer les forces et les faiblesses des pays de l’OCDE en matière d’attraction et de rétention de différents types de migrants talentueux. Ils évaluent les pays selon sept dimensions centrales (qualité des opportunités, revenus et fiscalité, perspectives d’avenir, environnement familial, environnement professionnel, inclusivité, qualité de vie) et la politique en matière de visas et d’admission. Initialement développé en 2019, cet outil fournit également des résultats post-simulation en introduisant les politiques migratoires les plus favorables pour chaque pays. L’édition 2023 des ITA (http://www.oecd.org/en/data/tools/talent-attractiveness-2023.html) élargit la version précédente en incluant quatre catégories de migrants talentueux : les travailleurs hautement qualifiés, les entrepreneurs étrangers, les étudiants universitaires et les fondateurs de start-ups. En outre, la nouvelle édition comprend un ensemble élargi de dimensions (par exemple, la santé) pour évaluer l’attractivité globale d’un pays. Les ITA devraient être mis à jour tous les trois à cinq ans.
Outre les six indicateurs évoqués ci-dessus, Carammia et Iacus (2025[18]) travaillent sur une méthode permettant d’extraire la variation sous-jacente commune à tous ces ensembles de données, ce qui aboutit à des indicateurs politiques synthétiques. Cette approche repose sur un algorithme développé pour extraire des mesures continues à partir de données d’enquête hétérogènes (Stimson, 2018[19]), ce que l’analyse factorielle standard ou l’analyse en composantes principales ne peuvent pas faire en raison de la nature clairsemée des données. Il en résulte des mesures continues d’indicateurs politiques, qui peuvent être estimées à différentes fréquences. L’algorithme peut ingérer des données à différentes fréquences et fonctionner avec des matrices de densité variable en termes de couverture temporelle. De cette manière, l’indicateur obtenu peut combler les lacunes temporelles entre les différents indicateurs. De plus, comme les indicateurs obtenus décrivent la variation commune entre les sources de données sous-jacentes, ils devraient également comporter une erreur moindre.
En résumé, les indicateurs politiques disponibles sont très différents. Les ensembles de données varient en fonction de leur objectif, certains étant spécialisés dans des domaines politiques particuliers (par exemple, le MIPEX sur la politique d’intégration) ; de leur couverture spatiale et temporelle, couvrant différents pays et périodes ; et de leur fréquence. Une limitation générale est l’actualité, car ces ensembles de données ne sont pas nécessairement mis à jour ou ont même été interrompus (comme dans le cas de l’IMPIC), ou leur mise à jour future est inconnue (DEMIG).
L’actualité est la limite la plus sérieuse des indicateurs à leur utilité pour alimenter les modèles de prévision. En effet, les mesures politiques telles que les facteurs d’attraction peuvent avoir un impact rapide sur les variations des flux migratoires. Des indicateurs récents et fréquemment mis à jour sont nécessaires comme variables d’entrée pour les modèles et les exercices de prévision. En fin de compte, la plupart de ces indicateurs sont mieux adaptés à l’analyse des relations passées entre les changements politiques et les flux migratoires. Compléter ces indicateurs par des données récentes et à haute fréquence, telles que les réseaux sociaux ou les requêtes sur les moteurs de recherche, pourrait contribuer à résoudre ce problème d’actualité.
Checklist:
Est-il possible d’utiliser certaines bases de données existantes sur les indicateurs politiques pour améliorer les modèles de prévision ? Ces données sont-elles exactes et à jour, et se concentrent‑elles sur les bonnes questions ?
Faut-il développer un paramétrage spécifique des politiques migratoires dans mon pays ?
Pour être utile, un tel paramétrage doit garantir une évaluation neutre de l’impact des politiques.
Comment gérer la maintenance des indicateurs politiques alors que la plupart d’entre eux bénéficient d’un financement peu stable et sont rarement mis à jour pour intégrer les changements politiques ?
Les données sur les indicateurs politiques dépendant généralement d’un soutien financier externe, leur mise à jour régulière nécessite un renouvellement du financement et des transferts de connaissances.
Quel logiciel est le mieux adapté à la prévision, à l’estimation des effets causaux et à la projection ?
Copier le lien de Quel logiciel est le mieux adapté à la prévision, à l’estimation des effets causaux et à la projection ?La prévision des flux migratoires nécessite des outils robustes capables de traiter divers types de données, horizons de prévision et approches méthodologiques. Le choix du logiciel dépend du type d’utilisation spécifique, de la catégorie de migration couverte, des exigences en matière de données et du niveau d’expertise des professionnels. Vous trouverez ci-dessous un aperçu des logiciels en langage R et Python qui conviennent à l’analyse de séries chronologiques, aux prévisions et à l’estimation des effets causaux, et sont adaptés au contexte des prévisions migratoires. R et Python font partie des plateformes les plus utilisées pour les prévisions en raison de leurs bibliothèques très développées, de leur flexibilité et de l’activité de leurs communautés d’utilisateurs. Ces outils sont bien adaptés à la fois aux modèles statistiques traditionnels et aux approches modernes d’apprentissage automatique. Nous examinons trois grandes familles de problèmes qui peuvent être traités dans R ou Python : i) l’analyse de séries chronologiques et la prévision; ii) l’estimation des effets causaux pour l’évaluation des politiques et iii) les projections à long terme. Cette liste ne peut être considérée comme exhaustive, mais ses composantes contiennent des éléments constitutifs importants. La plupart des packages R et des bibliothèques Python sont accompagnés de ressources en ligne. Les packages R sont généralement accompagnés d’une « vignette » ou même d’articles de revues, qui contiennent de nombreux exemples et des codes reproductibles. Les bibliothèques Python sont souvent accompagnées d’un cahier qui peut être exécuté en ligne étape par étape. Il convient de noter que R et Python disposent tous deux de bibliothèques de bas niveau et de types d’objets pour traiter les données de séries chronologiques, qui sont utilisés dans toutes les bibliothèques et tous les packages mentionnés dans cette section.
1. Logiciel d’analyse de séries chronologiques dans le contexte des prévisions migratoires
Le package R forecast (Hyndman et Khandakar (2008[20]); Hyndman et al. (2024[21])) est le logiciel idéal pour débuter avec les modèles de séries chronologiques traditionnels tels que ARIMA. Il permet le lissage exponentiel, la décomposition saisonnière, une automatisation de la sélection du modèle et du réglage des paramètres. Il convient aux praticiens qui recherchent des flux de travail efficaces. ARIMAX n’est pas une fonction du package R forecast, mais est couvert par le package TSA. Du côté de Python, statsmodels (Seabold et Perktold, 2010[22]) prend en charge ARIMA, SARIMA, ARIMAX et d’autres modèles économétriques classiques. Il comprend des outils de diagnostic pour valider les hypothèses et évaluer les performances des modèles. Comme l’approche standard de prévision pour l’extrapolation des séries chronologiques consiste à appliquer des modèles ARIMA, généralement dans le cadre du paradigme statistique fréquentiste pour des séries suffisamment longues (en règle générale, au moins 20 observations), la plupart des modèles de prévision formels pour toutes les catégories ainsi que pour la migration nette s’appuient sur l’analyse des séries chronologiques (Bijak et al., 2019[23]). Ces modèles semblent toutefois donner des résultats soit relativement bon, soit relativement mauvais, selon le type de migration et la disponibilité des données. Par exemple, les prévisions de flux instables, tels que les demandes d’asile, peuvent être faites à l’aide de modèles qui supposent une non-stationnarité (par exemple, le modèle de marche aléatoire), tandis que les migrations de travail, plus stables, présentent des caractéristiques plus ordonnées que ne le prédirait un modèle non stationnaire.
Les séries de données courtes peuvent nécessiter l’apport d’avis d’experts concernant les migrations futures ou les caractéristiques des processus. Une implémentation directe en R des modèles bayésiens de séries chronologiques structurelles (BSTS) est disponible dans le package bsts (Scott, 2024[24]).
Pour les modèles vectoriels autorégressifs (VAR) et VAR structurels, le package R d’entrée est vars (Pfaff, 2008[25]). Les modèles VAR peuvent être utiles, par exemple, pour modéliser les interdépendances entre les facteurs de migration tels que les indicateurs macroéconomiques (PIB, salaires et rémunérations, taux de chômage et indicateurs de l’emploi) et les chocs systémiques (changements de politique, abaissement ou relèvement des barrières aux migrations et au commerce, ou crises politiques). La méthodologie est suffisamment souple pour permettre l’inclusion d’autres facteurs de migration dans les modèles, à condition que les séries de données pertinentes soient disponibles. En ce qui concerne les prévisions VAR bayésiennes par panel, la boîte à outils BEAR (Bayesian Estimation, Analysis and Regression) basée sur MATLAB est un outil puissant pour les universitaires, les banques centrales et les décideurs politiques (Dieppe, van Roye et Legrand, 2016[26]). Par exemple, Barker et Bijak (2025[27]) tentent de prévoir les taux d’immigration, d’émigration et de migration nette à court et à long terme à l’aide de modèles macroéconomiques utilisant des fréquences mixtes.
2. Logiciel d’estimation des effets causaux dans le contexte des prévisions migratoires
Le package R CausalImpact (Brodersen et al., 2015[28]) utilise les séries chronologiques structurelles bayésiennes (BSTS) pour estimer les effets causaux des changements ou des interventions politiques. Il est idéal pour évaluer l’impact des politiques migratoires telles que les réformes en matière de visas ou de contrôles aux frontières. La bibliothèque causalimpact existe également pour Python.
Le package Synth (Abadie, Diamond et Hainmueller, 2011[29]) dans R met en œuvre les méthodes de contrôle synthétique (voir le chapitre 9) pour l’évaluation des politiques. Il permet aux praticiens de construire des scénarios contrefactuels afin d’estimer les impacts causaux dans des situations non expérimentales, comme dans le contexte des politiques migratoires. Une bibliothèque Python équivalente est pysincon (Fordham, 2022[30]). Ces packages implémentent la version de base des méthodes de contrôle synthétique. Une approche qui intègre l’apprentissage automatique dans la modélisation est appelée méthode de contrôle synthétique augmentée (Ben-Michael, Feller et Rothstein, 2021[31]). Les implémentations logicielles correspondantes sont augsynth (Ben-Michael, 2025[32]) pour R et, à nouveau, pysincon en Python.
3. Logiciels pour les projections démographiques et migratoires à long terme
Les projections nécessitent des outils capables de simuler des systèmes complexes, de saisir les comportements individuels et de les agréger en informations macroéconomiques. Des méthodes telles que la modélisation basée sur les agents (ABM), la microsimulation et la macrosimulation fournissent des cadres puissants pour les projections migratoires. Ces modèles peuvent s’appuyer à la fois sur les modèles de prévision mentionnés précédemment et sur les évaluations d’experts de différentes manières. Dans la catégorie des modèles ABM, parmi les nombreux logiciels disponibles, NetLogo (Wilensky, 1999[33]) peut être utilisé pour créer des modèles de projection démographique en simulant le comportement d’agents individuels au sein d’une population. Cela vous permet d’explorer comment des facteurs tels que les taux de natalité, les taux de mortalité, les migrations et la structure par âge peuvent avoir un impact sur la taille future de la population au fil du temps, créant ainsi une « population virtuelle » pour étudier les tendances démographiques selon différents scénarios. Un équivalent bien connu de NetLogo en Python pour l’ABM est Mesa (Kazil, Masad et Crooks, 2020[34]).
Pour les projections de microsimulation, MicSim (Zinn, 2024[35]) est un package R adapté à l’analyse de l’impact des politiques sur les décisions migratoires individuelles au fil du temps. Un autre projet bien connu est Modgen ou Model Generator (Bélanger et Sabourin, 2017[36]), qui permet de modéliser la dynamique démographique et les flux migratoires à l’aide d’attributs individuels détaillés. Une sorte d’équivalent open source est OpenM++ (OpenM++, 2024[37]), qui dispose à la fois de liaisons R et Python.
Un logiciel de macro-simulation open source est DAPPS (Demographic Analysis and Population Projection System), développé par le Bureau du recensement des États-Unis, pour lequel un package R est en cours de développement2. DAPPS est un outil complet d’analyse et de projections démographiques. Il utilise la méthode des composantes de cohorte et offre une interface graphique moderne pour un flux de travail efficace et une meilleure visualisation des données. Pour les packages R utilisés pour les projections démographiques à long terme des Nations unies (y compris les migrations), voir l’Encadré 4.2.
4. Logiciels d’apprentissage automatique dans le contexte des prévisions migratoires
Du côté de l’apprentissage automatique, le package prophet (Taylor et Letham, 2021[38]) développé par Facebook, traite les irrégularités (telles que les fortes saisonnalités, les points de changement, les données d’événements, etc.) ou les observations manquantes. Cette approche a également été proposée dans les projections des tendances migratoires à long terme. Ce modèle peut accepter des variables de régression externes. La bibliothèque prophet existe également pour Python.
Le package glmnet (Friedman, Hastie et Tibshirani, 2010[39]), qui met en œuvre la régularisation Elastic Net, constitue l’épine dorsale du modèle DynENet ou Dynamic Elastic Net (Carammia, Iacus et Wilkin, 2022[7]), qui permet une modélisation évolutive avec des données en haute dimension, idéale pour les flux migratoires irréguliers tels que les demandes d’asile. La bibliothèque Python scikit-learn (Pedregosa et al., 2011[40]) peut être utilisée pour une implémentation personnalisée du modèle DynENet.
Darts (Herzen et al., 2022[41]) est une bibliothèque Python appréciée qui implémente des techniques modernes d’apprentissage profond. La bibliothèque offre une interface unifiée pour les modèles de prévision traditionnels et basés sur l’apprentissage profond. Elle inclut la prise en charge des réseaux neuronaux récursifs, des LSTM (Long Short Term Memory) et des modèles d’ensemble pour la prévision. Le package TSLSTM (Paul et Yeasin, 2022[42]) implémente LSTM dans R. Plus récemment, Golenvaux et al. (2020[43]) ont inclus dans leurs prévisions des flux migratoires annuels vers les membres de l’OCDE en utilisant une approche de mémoire à court terme (LSTM) combinée aux données de Google Trends.
Checklist:
Est-il possible d’acheter et de télécharger le logiciel le mieux adapté au modèle prévu ?
Les prévisionnistes utilisent généralement R ou Python pour développer leurs modèles. Ces deux logiciels sont gratuits.
Mon ancien modèle peut-il être migré vers un logiciel plus efficace et plus flexible ?
La migration du logiciel du modèle doit éviter toute perte de continuité des prévisions existantes.
Références
[29] Abadie, A., A. Diamond et J. Hainmueller (2011), « Synth: An R Package for Synthetic Control Methods in Comparative Case Studies », Journal of Statistical Software, vol. 42/13, https://doi.org/10.18637/jss.v042.i13.
[27] Barker, E. et J. Bijak (2025), « Mixed-frequency VAR: a new approach to forecasting migration in Europe using macroeconomic data », Data & Policy, vol. 7, https://doi.org/10.1017/dap.2024.82.
[36] Bélanger, A. et P. Sabourin (2017), Microsimulation and Population Dynamics, Springer International Publishing, Cham, https://doi.org/10.1007/978-3-319-44663-9.
[32] Ben-Michael, E. (2025), augsynth: The Augmented Synthetic Control Method, R package version 0.2.0..
[31] Ben-Michael, E., A. Feller et J. Rothstein (2021), « The Augmented Synthetic Control Method », Journal of the American Statistical Association, vol. 116/536, pp. 1789-1803, https://doi.org/10.1080/01621459.2021.1929245.
[23] Bijak, J. et al. (2019), « Assessing time series models for forecasting international migration: Lessons from the United Kingdom », Journal of Forecasting, vol. 38/5, pp. 470-487, https://doi.org/10.1002/for.2576.
[1] Bijak, J., J. Forster et J. Hilton (2017), Quantitative assessment of asylum-related migration: A survey of methodology.
[17] BLAIR, C., G. GROSSMAN et J. WEINSTEIN (2021), « Liberal Displacement Policies Attract Forced Migrants in the Global South », American Political Science Review, vol. 116/1, pp. 351-358, https://doi.org/10.1017/s0003055421000848.
[6] Böhme, M., A. Gröger et T. Stöhr (2020), « Searching for a better life: Predicting international migration with online search keywords », Journal of Development Economics, vol. 142, p. 102347, https://doi.org/10.1016/j.jdeveco.2019.04.002.
[28] Brodersen, K. et al. (2015), « Inferring causal impact using Bayesian structural time-series models », The Annals of Applied Statistics, vol. 9/1, https://doi.org/10.1214/14-aoas788.
[18] Carammia, M. et S. Iacus (2025), « Migration mood and policy responsiveness: a structural analysis of public opinion, policy, and migration flows in Italy (1990–2020) », Journal of European Public Policy, vol. 33/1, pp. 74-104, https://doi.org/10.1080/13501763.2025.2584564.
[7] Carammia, M., S. Iacus et T. Wilkin (2022), « Forecasting asylum-related migration flows with machine learning and data at scale », Scientific Reports, vol. 12/1, https://doi.org/10.1038/s41598-022-05241-8.
[3] Cesare, N. et al. (2018), « Promises and Pitfalls of Using Digital Traces for Demographic Research », Demography, vol. 55/5, pp. 1979-1999, https://doi.org/10.1007/s13524-018-0715-2.
[8] Correia, R. (2024), « gtrendsAPI: An R wrapper for the Google Trends API », Software Impacts, vol. 20, p. 100634, https://doi.org/10.1016/j.simpa.2024.100634.
[16] Czaika, M., H. Bohnet et F. Zardo (2023), « Categorical and spatial interlinkages within the European migration policy mix », European Union Politics, vol. 25/1, pp. 173-196, https://doi.org/10.1177/14651165231209941.
[14] de Haas, H., K. Natter et S. Vezzoli (2015), « Conceptualizing and measuring migration policy change », Comparative Migration Studies, vol. 3/1, https://doi.org/10.1186/s40878-015-0016-5.
[26] Dieppe, A., B. van Roye et R. Legrand (2016), « The BEAR toolbox », European Central Bank Working Paper Series, vol. 1934.
[30] Fordham, S. (2022), pysyncon: a Python package for the Synthetic Control Method.
[39] Friedman, J., T. Hastie et R. Tibshirani (2010), « Regularization Paths for Generalized Linear Models via Coordinate Descent », Journal of Statistical Software, vol. 33/1, https://doi.org/10.18637/jss.v033.i01.
[43] Golenvaux, N. et al. (2020), « An LSTM approach to Forecast Migration using Google Trends. : », ArXiv, https://arxiv.org/abs/2005.09902.
[13] Helbling, M. et al. (2017), « measuring immigration policies: the IMPIC database », European Political Science, vol. 16/1, pp. 79-98, https://doi.org/10.1057/eps.2016.4.
[41] Herzen, J. et al. (2022), « Darts: User-Friendly Modern Machine Learning for Time Series, », Journal of Machine Learning Research, vol. 23/124, pp. 1-6.
[21] Hyndman, R. et al. (2024), forecast: Forecasting functions for time series and linear models. R package version 8.23.0.9000.
[20] Hyndman, R. et Y. Khandakar (2008), « Automatic Time Series Forecasting: The forecast Package for R », Journal of Statistical Software, vol. 27/3, https://doi.org/10.18637/jss.v027.i03.
[5] Iacus, S. et al. (2022), Data innovation in demography, migration and human mobility.
[34] Kazil, J., D. Masad et A. Crooks (2020), « Utilizing Python for Agent-Based Modeling: The Mesa Framework », dans Lecture Notes in Computer Science, Social, Cultural, and Behavioral Modeling, Springer International Publishing, Cham, https://doi.org/10.1007/978-3-030-61255-9_30.
[10] Minora, U. et al. (2022), « The potential of Facebook advertising data for understanding flows of people from Ukraine to the European Union », EPJ Data Science, vol. 11/1, https://doi.org/10.1140/epjds/s13688-022-00370-6.
[2] Nurse, S., M. Hinsch et J. Bijak (2023), « Mapping secondary data gaps for social simulation modelling: A case study of Syrian asylum migration to Europe », Open Research Europe, vol. 3, p. 216, https://doi.org/10.12688/openreseurope.15583.1.
[37] OpenM++ (2024), Open-source microsimulation modeling platform.
[42] Paul, D. et D. Yeasin (2022), TSLSTM: Long Short Term Memory (LSTM) Model for Time Series Forecasting. R package version 0.1.0..
[40] Pedregosa, F. et al. (2011), « Scikit-learn: Machine Learning in Python », Journal of Machine Learning Research, vol. 12, pp. 2825-2830.
[25] Pfaff, B. (2008), « VAR, SVAR and SVEC Models: Implementation Within<i>R</i>Package<b>vars</b> », Journal of Statistical Software, vol. 27/4, https://doi.org/10.18637/jss.v027.i04.
[15] Schreier, S., L. Skrabal et M. Czaika (2023), DEMIG-QuantMig Migration Policy Database.
[12] Scipioni, M. et G. Urso (2017), Migration Policy Indexes.
[24] Scott, S. (2024), bsts: Bayesian Structural Time Series. R package version 0.9.10..
[22] Seabold, S. et J. Perktold (2010), « Statsmodels: Econometric and Statistical Modeling with Python », Proceedings of the Python in Science Conference, Proceedings of the 9th Python in Science Conference, pp. 92-96, https://doi.org/10.25080/majora-92bf1922-011.
[4] Sîrbu, A. et al. (2020), « Human migration: the big data perspective », International Journal of Data Science and Analytics, vol. 11/4, pp. 341-360, https://doi.org/10.1007/s41060-020-00213-5.
[19] Stimson, J. (2018), « The Dyad Ratios Algorithm for Estimating Latent Public Opinion », Bulletin of Sociological Methodology/Bulletin de Méthodologie Sociologique, vol. 137-138/1, pp. 201-218, https://doi.org/10.1177/0759106318761614.
[38] Taylor, S. et B. Letham (2021), prophet: Automatic Forecasting Procedure. R package version 1.0, https://CRAN.R-project.org/package=prophet.
[33] Wilensky, U. (1999), NetLogo..
[9] Zagheni, E. et al. (2014), « Inferring international and internal migration patterns from Twitter data », Proceedings of the 23rd International Conference on World Wide Web, pp. 439-444, https://doi.org/10.1145/2567948.2576930.
[11] Zagheni, E., I. Weber et K. Gummadi (2017), « Leveraging Facebook’s Advertising Platform to Monitor Stocks of Migrants », Population and Development Review, vol. 43/4, pp. 721-734, https://doi.org/10.1111/padr.12102.
[35] Zinn, S. (2024), MicSim: Performing Continuous-Time Microsimulation. R package version 2.0.1. h.
Notes
Copier le lien de Notes← 1. Il convient de noter que, par conséquent, l’ensemble de données ne constitue pas une matrice équilibrée et complète de points pays/année, avec des informations sur la politique migratoire pour chaque pays/année. Pour un pays/une année, il peut y avoir plusieurs lignes, si plusieurs changements de politique ont eu lieu, suivies d’une absence de données pour l’année suivante si aucun changement de politique n’a eu lieu. Cela signifie que les données doivent être manipulées (éventuellement en calculant des mesures cumulatives du changement par rapport à une base de référence) pour obtenir des matrices complètes.