La validité et la fiabilité des scores PISA et leur comparabilité entre les pays et les langues sont les impératifs majeurs qui guident la conception des instruments d'évaluation et le choix du modèle statistique de mise à l'échelle des réponses des élèves. Les procédures PISA retenues pour respecter ces impératifs prévoient entre autres de faire analyser la qualité des items de la campagne définitive par des experts nationaux et de procéder à des analyses statistiques de l'adéquation du modèle en présence de modèles dérivés de la théorie de la réponse à l'item qui indiquent l'équivalence de chaque item dans des groupes linguistiques nationaux.
Annexe A6. Degré de comparabilité des scores PISA de mathématiques entre les pays et entre les langues
Copier le lien de Annexe A6. Degré de comparabilité des scores PISA de mathématiques entre les pays et entre les languesItems préférés par les pays
Copier le lien de Items préférés par les paysDes experts nationaux spécialisés en mathématiques ont procédé à l'analyse qualitative de l'ensemble des items du PISA 2022 à différents stades de leur conception. Leurs conclusions et leurs commentaires ont été pris en considération lors de la révision des items et des consignes de codage de la campagne définitive et ont guidé la sélection finale des items. Dans de nombreux cas, les modifications qui ont été introduites ont atténué des problèmes d'ordre culturel et ont amélioré l'équivalence des épreuves.
En fin d'année 2021, le consortium PISA a demandé aux experts nationaux de passer en revue les instruments définitifs, puis de confirmer ou de revoir leur évaluation initiale. Au total, 68 centres nationaux ont indiqué si les items PISA de mathématiques de 2022 étaient pertinents pour évaluer un aspect majeur de la validité de l'enquête PISA, à savoir « la préparation des élèves à l'âge adulte » (options de réponse : « Pas pertinents », « Quelque peu pertinents » et « Tout à fait pertinents »). Les experts nationaux ont également indiqué si les items et les compétences qu'ils faisaient intervenir étaient abordés dans le programme de cours officiels (options de réponse : « Non abordés dans le programme de cours », « Abordés dans certains programmes de cours » et « Systématiquement abordés dans le programme de cours »). L'enquête PISA ne cherche pas à évaluer uniquement ce que les élèves apprennent à l'école, certes, mais l'évaluation de la mesure dans laquelle les items PISA sont abordés dans les programmes de cours fournit des indicateurs contextuels qui permettent de comprendre les forces et les faiblesses des pays dans les épreuves.
En moyenne, dans les pays et économies, 81 % des items ont été déclarés « tout à fait pertinents » pour la préparation des élèves à l'âge adulte (l'option de réponse la plus favorable) ; 2 % seulement des items ont été déclarés « pas pertinents » (indice égal à 1).
Concernant le deuxième critère, des experts nationaux se sont montrés moins circonspects quant à la concordance entre la batterie d'items PISA de mathématiques et les programmes de cours. En moyenne, les items « systématiquement abordés dans le programme de cours » représentent 86 % et ceux « non abordés dans le programme de cours », seulement 3 %. Les experts de cinq pays – le Kazakhstan, la Norvège, le Pérou, les Philippines et la Thaïlande – ont considéré que tous les items PISA étaient systématiquement abordés dans le programme de cours national.
Le tableau I.A6.1 résume les évaluations transmises par les centres nationaux à propos de la batterie d'items PISA de mathématiques de 2022.
Tableau I.A6.1. Évaluation nationale des items PISA de mathématiques
Copier le lien de Tableau I.A6.1. Évaluation nationale des items PISA de mathématiquesPourcentage d'items, par critère d'évaluation
Remarque : la somme des pourcentages n'est pas nécessairement égale à 100 % à cause des arrondis. Les pourcentages d'items sont calculés en fonction de l'intégralité des items qui ont été évalués à l'échelle nationale. Dans les pays où les épreuves ont été administrées sur papier, seuls les items d'ancrage ont été retenus. Les pays et économies qui ne figurent pas dans ce tableau n'ont pas évalué la batterie finale d'items.
Items supprimés et inadéquats et interactions entre les items et les pays
Les échelles PISA de culture mathématique, de compréhension de l'écrit et de culture scientifique sont liées entre les pays, entre les évaluations et entre les modes d'administration (sur papier ou sur ordinateur) grâce aux items communs qui servent d'« ancrage », car leurs paramètres restent identiques. Un grand nombre d'items d'ancrage est essentiel à la validité des comparaisons des variables entre les pays et au fil du temps.
Les modèles unidimensionnels PISA qui sont dérivés de la théorie de la réponse à l'item et les groupes linguistiques constitués dans chaque pays et lors de chaque évaluation permettent de calculer les indices d'adéquation du modèle dans chaque combinaison d'item et de groupe. Ces indices peuvent révéler des tensions entre les contraintes du modèle et les réponses, une situation dite d'« inadéquation » ou de « fonctionnement différentiel » des items.
Dans les cas où les paramètres internationaux d'un item PISA ne conviennent pas dans un ou plusieurs groupes nationaux ou linguistiques, la solution de l'« invariance partielle » permet d'assouplir les contraintes d'équivalence concernant les paramètres de cet item dans ce ou ces groupes. Il est préférable d'opter pour cette solution plutôt que d'exclure de la base de données les réponses à ces items, car elle permet de garder les informations que recèlent ces réponses. Les items à laquelle cette solution est appliquée ne sont pas pris en compte dans l'ensemble international de réponses comparables, mais ils aident à réduire l'incertitude des mesures dans les groupes linguistiques nationaux.
Dans les rares cas où l'invariance partielle est insuffisante pour réduire la tension entre les réponses des élèves et le modèle basé sur la théorie de la réponse à l'item, les réponses aux items concernés sont exclues des données du groupe.
Les graphiques Graphique I.A6.1 etGraphique I.A6.2 indiquent le nombre d'items dont les paramètres sont internationaux (items invariants) et d'items dont les paramètres sont spécifiques à des groupes dans les épreuves PISA de mathématiques de 2022 ; les mêmes chiffres sont fournis au sujet des autres domaines d'évaluation dans le rapport technique sur l'enquête PISA de 2022 (OCDE, 2024[1]). Dans ces graphiques, chaque série de segments se rapporte à un pays ou à une économie. Dans les pays et économies où plusieurs langues sont parlées, chaque groupe linguistique national correspond à un segment.
Les segments représentent les items administrés dans chaque pays et économie. Les couleurs indiquent si les paramètres internationaux des items (« items invariants ») ont été conservés ou si des paramètres nationaux ont été utilisés du fait de l'inadéquation des paramètres internationaux. Il existe deux groupes différents d'items dont les contraintes d'équivalence internationale ont été assouplies :
Les nouveaux items spécifiques à des groupes : les items dont les paramètres sont spécifiques à un groupe linguistique national et à une année (dans de nombreux cas, les contraintes d'équivalence dans un sous-groupe d'inadéquation spécifique à un groupe linguistique national et à une année, par exemple à tous les groupes linguistiques d'un pays, ont pu être respectées).
Les items d'ancrage spécifiques à des groupes : les items dont les paramètres « non invariants » de 2022 sont ceux de 2018 dans les mêmes groupes linguistiques nationaux (ces items contribuent à l'invariance de la mesure au fil du temps, mais pas entre groupes).
Plus le nombre et le pourcentage d'items dont les paramètres sont équivalents (« invariants ») sont élevés dans deux pays ou économies, plus les scores de ces deux pays ou économies sont comparables. Comme les chiffres le montrent, les comparaisons de résultats entre les pays sont étayées par de nombreux items (les paramètres de plus de 85 % des items sont les paramètres internationaux invariants dans 115 des 125 groupes linguistiques nationaux).
Dans chaque domaine, les épreuves sont constituées d'un grand nombre d'items dont les paramètres internationaux sont invariants et d'un petit nombre d'items dont les paramètres sont spécifiques à un groupe. Le rapport technique sur l'enquête PISA de 2022 (OCDE, 2024[1]) indique le nombre d'écarts par item dans tous les groupes linguistiques nationaux.
C'est dans le groupe linguistique du Viet Nam que le nombre d'items inadéquats est le plus élevé en compréhension de l'écrit (contrairement aux mathématiques et aux sciences). En compréhension de l'écrit, près de 40 % des items (34 sur 87) sont spécifiques au Viet Nam. C'est pourquoi une corrélation solide avec l’échelle PISA internationale des compétences n'a pas pu être établie.
Graphique I.A6.1. Invariance des items de mathématiques des épreuves sur ordinateur entre les pays et économies et au fil du temps
Copier le lien de Graphique I.A6.1. Invariance des items de mathématiques des épreuves sur ordinateur entre les pays et économies et au fil du tempsAnalyses basées sur 234 items
Remarque : chaque segment correspond à un groupe linguistique national.
Source : OCDE, Base de données PISA 2022, PISA 2022 Technical Report (OCDE, 2024[1]).
Graphique I.A6.2. Invariance des items de mathématiques des épreuves sur papier entre les pays et économies et au fil du temps
Copier le lien de Graphique I.A6.2. Invariance des items de mathématiques des épreuves sur papier entre les pays et économies et au fil du tempsAnalyses basées sur 64 items (« nouvelle » évaluation papier-crayon) ou sur 71 items (« ancienne » évaluation papier-crayon)
Remarque : chaque segment correspond à un pays.
Le Cambodge, le Guatemala et le Paraguay ont administré en 2022 une version papier-crayon de l'évaluation PISA comprenant uniquement des unités d'ancrage (« nouvelle » évaluation papier-crayon). Le Viet Nam a utilisé pour l'évaluation papier-crayon le même matériel que celui administré en 2015 et 2018 (sur la base d'items utilisés pour la première fois lors de l'évaluation PISA 2012 ou d'évaluations précédentes) (« ancienne » évaluation papier-crayon). Pour plus de détails sur les évaluations papier-crayon dans le cadre du PISA 2022, voir l’annexe A5.
Source : OCDE, Base de données PISA 2022, PISA 2022 Technical Report (OCDE, 2024[1]).
Tableau I.A6.1. Degré de comparabilité des scores PISA
Copier le lien de Tableau I.A6.1. Degré de comparabilité des scores PISA|
Tableau I.A6.1 |
Comment les experts nationaux ont évalué les items PISA en mathématiques |
|
Graphique I.A6.1 |
Invariance des items dans les tests informatisés de mathématiques entre les pays/économies et au fil du temps |
|
Graphique I.A6.2 |
Invariance des items dans les tests de mathématiques sur papier entre les pays et au fil du temps |
Référence
[1] OCDE (2024), PISA 2022 Technical Report, Éditions OCDE, Paris, https://doi.org/10.1787/01820d6d-en.