La méthodologie utilisée dans l'analyse des tendances d'évolution de la performance dans les enquêtes internationales est complexe. Un certain nombre de conditions doivent être réunies pour garantir la comparabilité des résultats PISA entre les évaluations.
Il faut en particulier que les évaluations successives du même domaine comportent un nombre suffisant d'items communs et que ceux-ci gardent leurs propriétés psychométriques au fil du temps pour que les résultats des élèves puissent être rapportés sur la même échelle de compétence. La batterie d'items doit couvrir de façon adéquate les différents aspects du cadre d'évaluation dans chaque domaine.
De plus, l'échantillon d'élèves doit être aussi représentatif de la population cible à chaque évaluation ; seuls les résultats dérivés des échantillons conformes aux strictes normes PISA peuvent être comparés dans le temps. Certains pays et économies ne peuvent comparer tous leurs résultats PISA au fil du temps, et ce, même s'ils ont participé à plusieurs évaluations PISA.
Les comparaisons dans le temps peuvent être affectées par un changement dans les conditions d'administration des épreuves ou les méthodes employées pour estimer le score des élèves sur les échelles PISA de compétence. Rappelons en particulier à cet égard que depuis 2015, les épreuves sont principalement administrées sur ordinateur. Par ailleurs, un modèle plus souple a été adopté pour mettre les données à l'échelle et les items non atteints (c’est-à-dire les items auxquels les élèves n’ont pas répondu à la fin du questionnaire) ont été considérés comme non administrés (la non-réponse à ces items valait une réponse incorrecte dans l'estimation du niveau des élèves sur l'échelle PISA de compétence lors des évaluations précédentes). Au lieu de procéder à une nouvelle estimation des résultats antérieurs en fonction des nouvelles méthodes, l'incertitude découlant de ces changements a été intégrée dans le calcul statistique de la signification des tendances (voir la section « Erreurs d'ancrage » ci-dessous).
Les variations des taux de scolarisation n’affectent pas la nature représentative de l’échantillon PISA en ce qui concerne sa population cible (les jeunes âgés de 15 ans scolarisés en 7e année au moins), néanmoins de telles variations peuvent affecter l’interprétation des tendances.
Enfin, les comparaisons des résultats des épreuves basées sur des cadres d'évaluation différents peuvent aussi refléter la réorientation des priorités. Par exemple, les différences de résultats PISA entre 2018 (et des années antérieures) et PISA 2022 en mathématiques ne révèlent pas seulement si les élèves répondent mieux aux items communs aux épreuves des années retenues dans la comparaison (les items d'ancrage qui ont été conçus sur la base de cadres d'évaluation antérieurs), mais aussi s'ils sont relativement performants (par rapport à d'autres élèves, dans d'autres pays) dans des aspects plus prioritaires du cadre d'évaluation le plus récent.