Borgonovi et Biecek (2016[8]) ont conçu un indicateur national d'« endurance académique » qui compare la performance entre le premier quart et le troisième quart des épreuves PISA de 2012 (la conception des épreuves PISA de 2012 est telle que le contenu des épreuves est parfaitement équilibré dans les premier et troisième quarts des carnets de test). Le raisonnement qui sous-tend cet indicateur est que l'effort consenti par les élèves peut varier durant les épreuves, contrairement à leurs savoirs et savoir-faire qui restent constants ; tout écart de performance est dès lors imputable à la variation de l'effort consenti2.
L’indicateur original proposé pour PISA 2012 peut être adapté au format utilisé en 2022 de deux façons.
Une première série d’indicateurs compare la performance des élèves à qui on a fait passer un test donné (par exemple, mathématiques) dans la première heure à la performance des élèves à qui on a fait passer le même test dans la deuxième heure de test. Les indicateurs utilisés peuvent être dérivés de la théorie de réponse à l’item (valeurs plausibles) ou de la théorie de test classique (pourcentage de bonnes réponses), même si les comparaisons reposant sur cette dernière ne sont valides que pour les élèves (ou domaines) dont les évaluations ne sont pas adaptatives, et donc, en toutes circonstances, d’une difficulté identique.
Un second indicateur exploite la structure conceptuelle du test en mathématiques de 2022, en divisant la batterie d’items en trois ensembles (mutuellement exclusifs), dont la position est répartie entre les élèves. Ainsi, les items de l’ensemble A ont été attribués à un tiers des élèves au début du test de mathématiques, à un autre tiers au milieu et au dernier tiers à la fin du test ; c’est le même scénario pour les ensembles B et C. En comparant les performances des élèves dont l’évaluation n’était pas adaptative (25 % de tous les élèves qui ont passé le test de mathématiques) à ces trois positions différentes (début, milieu et fin), il est possible de voir comment les performances varient (et généralement diminuent) au cours du test de mathématiques d’une durée d’une heure dans chaque pays et économie.
La performance des élèves par heure de test
Quand on compare les performances des élèves par heure de test, on observe une forte baisse entre la première et la deuxième heure de test dans plusieurs pays et économies, en particulier en compréhension de l’écrit.
Dans cette matière, en moyenne dans les pays de l’OCDE, les élèves qui ont passé le test dans la deuxième heure (dans la plupart des cas, après avoir fait un test de mathématiques d’une heure) ont obtenu 14 points de moins que les élèves qui ont passé le test dans la première heure, ce qui constitue un très gros écart. On a constaté d’importantes baisses de performance pour ce test, de l’ordre de 20 à 30 points en Islande, en Israël, en Lettonie*, en Albanie, au Qatar, en Slovénie, à Malte, en Argentine et en Norvège (par ordre décroissant de l’importance de cette différence) (tableau I.A8.17).
En mathématiques, en moyenne dans les pays de l’OCDE, l’écart de performance entre les élèves qui ont passé le test de mathématiques dans la deuxième heure et ceux qui l’on fait dans la première heure est de quatre points. Dans la plupart des pays, la différence n’est pas statistiquement significative ; toutefois, en Albanie et en Norvège la baisse est de plus de 10 points (tableau I.A8.14).
En sciences, les résultats se situent entre ceux des mathématiques et de compréhension de l’écrit. La baisse moyenne entre la première et la deuxième heure de test est de huit points. Dans cette matière, où l’évaluation n’était pas adaptative, les résultats basés sur des valeurs plausibles correspondent étroitement au pourcentage de bonnes réponses (le coefficient de corrélation linéaire entre les deux séries d’estimation, une mesure de leur association qui varie entre -1 et 1, est égal à 0.95) (tableau I.A8.11 et tableau I.A8.20).
Globalement, la baisse de performance entre la première et la deuxième heure de test pour le même pays ou économie dans les différentes matières n’est que modérément corrélée. Ces baisses sont vraisemblablement la conséquence des effets de position (l’effet de faire le test dans la deuxième heure, qui existe dans toutes les matières) et des effets d’ordre (l’effet de faire un test de compréhension de l’écrit après un test de mathématiques, par exemple). Les effets d’ordre peuvent se manifester différemment en fonction des matières et du pays (tableaux I.A8.14, I.A8.17 et I.A8.20).
Néanmoins, quelques pays et économies se classent régulièrement parmi ceux ayant peu « d’endurance », c’est-à-dire que les résultats de la deuxième heure sont bien inférieurs à ceux de la première heure, quelle que soit la matière. Les pays et économies ayant peu d’endurance en 2022 comprennent l’Albanie, Malte et la Norvège (tableaux I.A8.14, I.A8.17 et I.A8.20).
La différence entre la première et la deuxième heure peut paraître énorme. Toutefois, des baisses d’une ampleur similaire ont été observées en 2018 dans la plupart des pays. En fait, en moyenne dans les pays de l’OCDE, la différence entre la première et la deuxième heure de test diminue quelque peu. Ceci signifie que la performance en 2022 était inférieure à celle de 2018 pendant toute la durée du test, mais davantage au début de celui-ci. Les exceptions les plus significatives sont l’Albanie en compréhension de l'écrit, ainsi que la République dominicaine et la Grèce en sciences, où l’écart de performance entre la première et la deuxième heure de test s’est élargi entre 2018 et 2022 (tableaux I.A8.16, I.A8.19 and I.A8.22).
Baisse de la performance pendant le test d’une heure de mathématiques
La baisse de performance pour un élève donné durant l’heure de test de mathématiques est souvent plus marquée que celle entre les élèves qui ont passé le test de mathématiques dans la première heure et la deuxième heure de test, car les élèves réussissent mieux au début de la deuxième heure de test (et après une pause) qu’à la fin de la première heure de test.
En moyenne, dans les pays de l’OCDE, les élèves à qui l’on a attribué une évaluation non adaptative en mathématiques ont répondu correctement à 47.6 % des questions s’ils ont passé le test au cours de la première heure et à 46.0 % s’ils l’ont passé dans la deuxième heure de test (tableau I.A8.7). Au tout début du test de mathématiques, le pourcentage de réponses correctes (moyenne des élèves de la première heure et de la deuxième heure) était de 48.1 %, mais il est tombé à 47.3 % au milieu de la section, puis à 44.2 % dans la dernière section — une chute de près de 4 points de pourcentage (tableau I.A8.23).
On observe la plus forte baisse dans le test de mathématiques en Israël : le pourcentage de réponses correctes s’est d’abord établi près du niveau de la moyenne de l’OCDE en 2022, mais a chuté d’environ sept points de pourcentage dans la troisième (et dernière) section. En revanche, la performance est restée à un niveau proche de la moyenne de l’OCDE pendant toute la durée du test en France, par exemple. Parmi les pays et économies très performants, Hong Kong (Chine)*, la Corée, Singapour et le Taipei chinois se distinguent par de faibles différences (deux points de pourcentage ou moins) de performance entre le début et la fin de l’heure de test (tableau I.A8.23).
Ces baisses de performance entre la première et la troisième section du test peuvent modifier le classement des pays à la marge (par exemple, Israël serait mieux classé si l’on ne tenait compte que de la performance au début du test de mathématiques), mais n’affectent pas les principales conclusions que l’on peut tirer des comparaisons des résultats PISA entre les pays. Autour de la moyenne de l’OCDE, une différence de 10 points sur l’échelle des mathématiques correspond approximativement à une différence de 4 points dans l’indicateur de pourcentage de réponses correctes3.