Gobernar con la inteligencia artificial

Panorama actual y hoja de ruta en las funciones centrales de gobierno

Report

10 noviembre 2025

Disponible en:

English
français
español

Descargar PDF

IA en la evaluación de políticas públicas

Copiar enlace a IA en la evaluación de políticas públicas

La evaluación de las políticas públicas aporta datos empíricos cruciales para ayudar a los responsables de formular políticas a comprender qué funciona, para quién y en qué circunstancias (OECD, 2025[107]; 2020[108]). La IA puede desempeñar un papel importante en el apoyo a la evaluación de políticas públicas. El aumento exponencial de los datos generados a nivel mundial, junto con el rápido desarrollo de nuevas tecnologías que reducen los costos de almacenamiento e informática, está impulsando la innovación en técnicas que pueden capturar, analizar y visualizar instantáneamente estos vastos repositorios de datos, enriqueciendo las evaluaciones (Petersson et al., 2017[109]) (Rinaldi, Giuffrida and Negrete, 2017[110]). Esto puede tener consecuencias importantes sobre qué y cómo evalúan los evaluadores.

La IA tiene el potencial de acelerar y automatizar tareas esenciales, como la recopilación y el análisis de datos, y de apoyar a los evaluadores en diferentes tareas de gestión, accediendo a un amplio conjunto de datos internos y externos o sintetizando resultados. La IA también puede respaldar las evaluaciones ex ante mediante la creación de sistemas predictivos y simulaciones que ayuden a los responsables de la formulación de políticas a anticipar los posibles impactos antes de su implementación (Bénassy-Quéré, 2022[111]). Sin embargo, su uso dentro del gobierno para la evaluación de políticas ha sido limitado y ha avanzado más lentamente que en otras funciones analizadas en este capítulo.

Situación actual

Apoyo al diseño e implementación de la evaluación

La IA puede ayudar a los evaluadores de políticas a procesar una gran cantidad de contenido que puede ser útil para diseñar e implementar evaluaciones, ya sea ex ante o ex post. Esto abarca desde enfoques más sofisticados y estructurados, como el apoyo a la síntesis de la evidencia existente, hasta funciones más básicas, como proporcionar resúmenes sencillos de evaluaciones anteriores.

La síntesis de pruebas es especialmente útil para fundamentar la elaboración de evaluaciones ex ante o ex post. Estos métodos suelen implicar la combinación de los resultados de diferentes estudios que investigan el mismo tema para tener una comprensión global del tema. En el campo de la síntesis de evidencias, la minería de textos y otros tipos de herramientas de IA se han aplicado a la búsqueda de literatura, el screening de texto completo, la extracción de datos y el análisis durante más de 10 años. Los investigadores en el campo han cartografiado una variedad de herramientas que pueden apoyar las diferentes etapas de la síntesis de evidencias, particularmente para revisiones sistemáticas y hacerlas más efectivas. Ejemplos de herramientas son Rayyan, para examinar títulos y resúmenes, y Robot Reviewer, para evaluar determinados riesgos (Khalil, Ameen and Zarnegar, 2022[112]). Se elaboraron orientaciones y recomendaciones para garantizar el uso responsable de la IA en la síntesis de pruebas (RAISE), lo que demuestra el creciente interés por aplicar estas herramientas en este ámbito (Thomas et al., 2024[113]). Los beneficios de utilizar la IA para la síntesis de pruebas se basan en la capacidad de acceder a una gran cantidad de bibliografía y procesar la información con mayor rapidez que otros enfoques alternativos. De hecho, el tiempo promedio para realizar una síntesis de pruebas es de 15 meses, pero el uso de la IA puede reducir radicalmente algunos de los pasos (Blaizot et al., 2022[114]). Por ejemplo, un riesgo de sesgo en la evaluación de datos de 30 artículos de ensayos controlados aleatorizados (ECA) puede realizarse con precisión utilizando un LLM en un promedio de 53 segundos. Esto habría requerido mucho más tiempo a un ser humano; un estudio reciente proporcionó una estimación de alrededor de 28 minutos para cada estudio en la revisión sistemática utilizando una herramienta para ensayos aleatorizados (RoB 2), que ahora se considera el estándar de referencia (Minozzi et al., 2020[115]; Lai et al., 2024[116]; Odell, 2024[117]). Del mismo modo, los evaluadores del Banco Mundial, que utilizan minería de texto e IA, han podido duplicar el tamaño de la base empírica que utilizan para tomar determinadas decisiones sobre programas. Probablemente eso habría sido imposible utilizando los enfoques tradicionales de identificación de carteras, sentando las bases para las evaluaciones de pertinencia y efectividad en el análisis de carteras que llevaron a cabo (Bohni Nielsen, Mazzeo Rinaldi and Petersson, 2024[118]).

Apoyo a la analítica

La IA puede ayudar a procesar grandes cantidades de datos y textos largos, como informes de documentación y entrevistas, para identificar patrones, lo que puede ser especialmente útil para las evaluaciones. Al utilizar la minería de texto habilitada para la NLP, la IA puede ayudar a los evaluadores a comprender las conclusiones y proporcionar evaluaciones detalladas que, de otro modo, requerirían mucho tiempo (Næss et al., 2025[119]).

Las aplicaciones de análisis cuantitativo de texto para la evaluación de programas son prometedoras, ya que la IA permite un análisis más rápido de un gran número de documentos en comparación con las herramientas clásicas de análisis de texto (Gatto and Bundi, 2025[120]). Por ejemplo, analizar las respuestas a preguntas abiertas necesarias para reconstruir la teoría de un programa podría implicar diferentes métodos que requieren mucho tiempo, como identificar afirmaciones que tienen una forma específica y reformularlas en proposiciones condicionales "si-entonces" (Leeuw, 2003[121]), que pueden facilitarse mediante técnicas novedosas, como los modelos temáticos (Gatto and Bundi, 2025[120]). Si bien el análisis de texto convencional puede contribuir a la evaluación de varias maneras empíricas y conceptuales, como medir las preferencias de las partes interesadas o identificar teorías de programas subyacentes, el análisis cuantitativo de texto basado en IA puede crear aún más oportunidades. Por ejemplo, el Banco Mundial utilizó el ML no supervisado para analizar 392 informes de proyectos en 64 países receptores de ayuda, identificando con éxito factores novedosos y perspicaces que influyen en el éxito y el fracaso de los proyectos (Franzen et al., 2022[122]). Además, el análisis de textos con IA resulta especialmente útil para identificar temas subyacentes en informes o programas de políticas existentes, ya que permite cartografiar conceptos clave incorporados en la documentación pertinente, una técnica también conocida como modelización temática (Cintron and Montrosse-Moorhead, 2021[123]). Algunos de estos métodos pueden utilizarse para comprender las posiciones de diferentes partes interesadas y proporcionar información interesante para la evaluación de políticas. En algunos países, agentes relevantes, como las EFS, están adoptando técnicas de análisis cuantitativo de textos para realizar auditorías de desempeño que comparten varias características con las evaluaciones de políticas. En Noruega, por ejemplo, se utilizaron aplicaciones de minería de textos y ML para realizar una auditoría del rendimiento del tratamiento policial de la ciberdelincuencia (Recuadro 5.31). En el ámbito de la política ambiental, la OCDE se asoció con importantes instituciones de investigación que utilizaron la IA para llevar a cabo la primera evaluación global integral de las medidas de política ambiental, analizando más de 1 500 intervenciones de política en cuatro sectores de 1998 a 2022 en 41 países de seis continentes (Recuadro 5.32).

Más allá de estas técnicas de análisis de textos, la IA también tiene potencial para mejorar la inferencia causal en la evaluación de políticas, para apoyar diseños cuasi experimentales que se basan en modelos probabilísticos, ayudando a generar algunos de los datos que faltan que se necesitan para sofisticados métodos no paramétricos y variables instrumentales para simular diversos escenarios de impacto. Esto puede ayudar a mover las fronteras de la investigación y permitir evaluaciones mucho más potentes sin la necesidad de costosos enfoques de ensayos controlados aleatorios (Miller, 2020[124]).

Recuadro 5.31. Noruega utiliza minería de textos y ML en inspecciones policiales

Copiar enlace a Recuadro 5.31. Noruega utiliza minería de textos y ML en inspecciones policiales

En 2018, la Oficina del Auditor General de Noruega creó un Laboratorio de Innovación destinado a integrar la ciencia de datos en la auditoría. El laboratorio incluía a científicos de datos con experiencia en áreas como la evaluación/auditoría del rendimiento, codificación y ML, para ayudar a los auditores automatizando tareas, ayudando en la adquisición de datos (como el web scraping) y el análisis (por ejemplo, la minería de texto), así como proporcionando formación interna en herramientas de codificación y análisis.

En 2021, la Oficina del Auditor General de Noruega llevó a cabo una auditoría del desempeño de las actividades de la policía nacional noruega en la lucha contra la ciberdelincuencia. El objetivo de la auditoría era examinar si la policía noruega había mejorado su capacidad para combatir la delincuencia cibernética. Durante la auditoría, la colaboración entre los científicos de datos y los auditores fue clave para garantizar un uso hábil de los nuevos métodos en dichas auditorías, aportando contribuciones en sus respectivas competencias. Si bien los auditores abordaron varias tareas, como el diseño de investigaciones, la recopilación y el análisis de datos, así como la redacción, los científicos de datos desempeñaron un papel clave en la aplicación de métodos avanzados de minería de texto y ML para clasificar los casos penales. Más concretamente, durante la auditoría, se utilizaron 1.000 casos codificados para formar a un sistema de ML que aplicaba técnicas de minería de texto para extraer el texto de 334 544 casos de diferentes tipos de delitos (por ejemplo, lucro/robo ilícito, tráfico, violencia, delitos financieros). La tarea de clasificar los casos penales como delitos cibernéticos o delitos no cibernéticos es crucial para evaluar la comprensión y la gestión de esos delitos por parte de la policía. Los datos que poseía anteriormente la policía noruega eran poco confiables y carecían de información sobre el alcance de las investigaciones y las resoluciones de casos.

Fuente: (Næss et al., 2025[119]),https://www.adb.org/sites/default/files/publication/928976/governance-brief-052-digital-transformation-tax-administration-rok.pdf.

Recuadro 5.32. Evaluación de la efectividad de las políticas ambientales con IA

Copiar enlace a Recuadro 5.32. Evaluación de la efectividad de las políticas ambientales con IA

Entender qué políticas reducen efectivamente las emisiones es un desafío apremiante para los gobiernos de todo el mundo. En colaboración con el Instituto de Potsdam para la Investigación del Impacto Climático (PIK), la Universidad de Oxford y la Universidad de Victoria, la OCDE ha contribuido a un estudio que utiliza la IA para evaluar la efectividad de este tipo de políticas en 41 países. Esta investigación, publicada en Science, hace un balance de más de 1.500 intervenciones políticas que abarcan el período comprendido entre 1998 y 2022, ofreciendo una visión sin precedentes de lo que funciona en la lucha contra el cambio climático.

El núcleo del estudio es el Marco de Medición de Acciones y Políticas Climáticas de la OCDE. Utilizando IA, el estudio identificó 63 políticas que han llevado a reducciones significativas de las emisiones. Este enfoque impulsado por la IA no solo mejora la capacidad de detectar medidas de política acertadas, sino que también revela patrones y combinaciones de políticas que, de otro modo, podrían pasar desapercibidos. Una de las principales conclusiones destaca que las combinaciones de políticas —en lugar de las medidas aisladas— son más efectivas para reducir las emisiones, lo que refuerza la importancia del diseño estratégico de las políticas.

Fuente: https://www.oecd.org/en/blogs/2025/01/what-works-groundbreaking-evaluation-on-the-effectiveness-of-climate-policies.html.

Apoyo a la gestión y comunicación

Los gestores de las evaluaciones pueden beneficiarse de una variedad de herramientas basadas en la IA desarrolladas para facilitar las actividades de apoyo, como los procesos administrativos, la redacción, la traducción y las herramientas de búsqueda. Al examinar la planificación y la gestión, las evaluaciones gubernamentales suelen subcontratarse a evaluadores externos, lo que aumenta su complejidad de gestión. Las funciones basadas en IA de las herramientas de gestión de proyectos, como monday.com o Asana, ayudan a los evaluadores a optimizar recursos y plazos, por ejemplo, recomendando una dotación de personal y una programación óptimas en función de evaluaciones anteriores, o garantizando que los recursos se asignan donde más se necesitan. Ambas plataformas utilizan la IA para ofrecer automatización y análisis, como la automatización de los flujos de trabajo, las tareas predictivas o la asistencia a través de asistentes de IA. Además, la IA generativa también puede facilitar la redacción de mandatos o tareas de gestión similares (Jacob, 2025[125]).

Las herramientas que utilizan los programas de aprendizaje permanente pueden ayudar a mejorar la comunicación de los resultados de las evaluaciones; resumen rápidamente los informes largos en productos más breves que pueden compartirse con los responsables de la toma de decisiones o con el público. La Comisión Europea, por ejemplo, ha desarrollado una herramienta basada en el aprendizaje permanente que puede elaborar resúmenes e informes de políticas a partir de documentos elaborados en diferentes idiomas (Recuadro 5.33).

Por último, las herramientas de IA pueden ser útiles para desarrollar repositorios de evaluación digital y herramientas de gestión del conocimiento. Varios países de la OCDE han desarrollado repositorios de evaluación que garantizan que todas las evaluaciones realizadas sean fáciles de encontrar, o plataformas para describir y alinear los esfuerzos de evaluación en todo el gobierno. Un ejemplo es la plataforma Kudos de Noruega1. Aunque el desarrollo manual de estos repositorios puede requerir mucho tiempo, los LLM pueden automatizar gran parte del trabajo y permitir búsquedas más precisas en un gran volumen de informes. En Francia, la Inspección General de Finanzas (IGF) está utilizando actualmente modelos de gestión de la liquidez para desarrollar una generación aumentada de recuperación interna (Recuadro 5.34) llamada Fragments, que recopila informes del IGF y del Tribunal de Cuentas francés desde 2006 y permite una búsqueda precisa en todos estos documentos.

Recuadro 5.33. Herramientas de resumen electrónico de la Comisión Europea para apoyar administraciones públicas

Copiar enlace a Recuadro 5.33. Herramientas de resumen electrónico de la Comisión Europea para apoyar administraciones públicas

La Dirección General de Traducción de la Comisión Europea ha desarrollado una serie de servicios basados en IA que pueden apoyar el análisis de las políticas, incluida su evaluación. Por ejemplo, eSummary es un servicio basado en IA que puede realizar una rápida descripción general de un texto enviado y enviar una versión abreviada; utiliza algoritmos de IA para elegir dónde se encuentra el énfasis en el documento y proporcionar una síntesis relevante. eSummary está conectado a otra herramienta de traducción basada en IA (eTranslation), lo que le permite crear texto en todas las lenguas de la UE. La herramienta es accesible para una variedad de actores en toda la Unión Europea, incluidas las administraciones públicas de los Estados miembros.

Fuente: https://language-tools.ec.europa.eu.

Recuadro 5.34. Generación de recuperación aumentada para LLMs

Copiar enlace a Recuadro 5.34. Generación de recuperación aumentada para LLMs

La Generación Aumentada de Recuperación (RAG, por sus siglas en inglés) es una técnica desarrollada para mejorar la forma en que los LLM, como los que están detrás de los chatbots avanzados y los asistentes virtuales, manejan la información. Por diferentes razones, incluida la dependencia de datos antiguos, los grandes modelos pueden proporcionar respuestas incorrectas y puede resultar difícil comprender cómo se derivaron de una respuesta concreta. La RAG puede ayudar a abordar estos desafíos al permitir que los LLM accedan a fuentes de datos adicionales que puedan mantener actualizada la información, lo que es particularmente útil cuando se aplica a dominios o áreas de conocimiento especializadas. Para los actores gubernamentales, las RAG pueden ser un medio efectiva para delimitar sus fuentes internas de datos, mejorando al mismo tiempo la precisión, la pertinencia y la confiabilidad de los resultados de un modelo.

La RAG comienza identificando la documentación pertinente y extrayendo el texto vital de la misma. A continuación, divide este texto en partes más pequeñas y las transforma en un formato (es decir, incrustaciones) que el modelo puede entender y almacenar de forma eficiente. Estas piezas de información se mantienen en una base de datos especial (es decir, bases de datos vectoriales). Cuando alguien le hace una pregunta al modelo, éste puede buscar en esta base de datos información actualizada y precisa para agregar a lo que ya sabe antes de dar una respuesta.

En situaciones en las que es fundamental que un modelo proporcione datos actualizados y precisos, como cuando se trata de información confidencial o se necesita mantener un registro claro de las fuentes de datos, el manual de IA del Reino Unido para el Gobierno del Reino Unido (Recuadro 4.2) recomienda utilizar las RAG. Este enfoque puede ayudar a garantizar que las respuestas del modelo se basen en datos confiables, lo que lo convierte en un instrumento especialmente valioso para las organizaciones centradas en mantener altos niveles de precisión y responsabilidad.

Fuente: (Ugale and Hall, 2024[89]).

Evidencia de impacto

Dado que el uso de la IA en la evaluación de políticas se encuentra todavía en una fase incipiente, su impacto en la práctica de evaluación de políticas sigue siendo modesto y difícil de medir. Un estudio reciente realizado a 758 consultores del Boston Consulting Group (BCG) sobre tareas complejas y realistas que exigen un alto nivel de conocimiento (como la evaluación de políticas), demostró que, de un conjunto de 18 tareas de consultoría realistas dentro de las capacidades conocidas de la IA, los consultores que utilizan IA eran mucho más productivos. En comparación con un grupo de control, en promedio, completaron un 12 % más de tareas, un 25 % más rápido y un 40 % más de calidad (Dell’Acqua et al., 2023[126]). Sin embargo, se observó un efecto diferente en las tareas "fuera de la capacidad actual de la IA", al mostrar menos errores del grupo que no utilizaba IA. Otros estudios sobre el impacto de la IA en la síntesis de evidencias muestran resultados prometedores de la utilización de modelos de aprendizaje permanente para llevar a cabo algunos elementos de revisiones sistemáticas, como las evaluaciones del riesgo de sesgo, con un acuerdo en el juicio entre los seres humanos y los sistemas de IA que oscila entre el 41 % para el juicio global y el 71 % para la medición de resultados (Eisele et al., 2024[127]). Al mismo tiempo, el estudio también pone de relieve que el juicio sobre la IA todavía no puede sustituir a la evaluación humana.

Gestión de riesgos y desafíos

Si bien hay muy poca investigación sobre los riesgos y desafíos del uso de la IA en la evaluación de políticas públicas (Jacob, 2025[125]), esa investigación, junto con el trabajo de la OCDE con los gobiernos y el análisis de casos de uso individuales, han identificado varios riesgos asociados y desafíos de implementación para el uso de la IA en este campo.

Riesgos asociados

Datos inadecuados o sesgados en los sistemas de IA.
Sesgo de automatización.
Falta de transparencia y explicabilidad.

El uso de la IA durante los procesos de evaluación puede reforzar algunos errores que pueden surgir en múltiples puntos de la cadena de suministro de IA. El primer riesgo de utilizar la IA en la evaluación de políticas procede de algoritmos de formación con datos sesgados o incompletos. Esto puede dar lugar a sistemas que generen predicciones erróneas o que refuercen o agraven perspectivas preexistentes (Jacob, 2025[125]). Si bien este riesgo no solo afecta a la evaluación de las políticas —y puede aplicarse a otros usos de la IA en la formulación de políticas—, su posible riesgo sobre el terreno es significativo si se tiene en cuenta su impacto en el mantenimiento o la interrupción de intervenciones potencialmente positivas o perjudiciales (Marcucci and Verhulst, 2025[128]). Por esta razón, es esencial mitigar este riesgo en la medida de lo posible asegurándose de que los datos utilizados para entrenar estos sistemas sean de buena calidad y representativos.

Muchas personas perciben que los sistemas de IA y las decisiones que toman son neutrales e imparciales, lo que les lleva a aceptar resultados sin escrutinio, a pesar de la posibilidad de que existan imprecisiones. Esta tendencia de los operadores humanos a depender excesivamente de la automatización se conoce como "sesgo de automatización" (Horowitz, 2023[129]; Alon-Barkat and Busuioc, 2022[130]). El exceso de automatización podría reducir el papel del juicio humano y, potencialmente, simplificar en exceso supuestos sociales y económicos complejos. Esto puede hacer que los evaluadores acepten las recomendaciones propuestas por la IA sin examinar completamente los supuestos o datos subyacentes.

Además, la falta de transparencia de determinadas herramientas de IA puede complicar aún más las tareas de los responsables de la formulación de políticas para entender y justificar los conocimientos basados en la IA. Esto puede ser especialmente problemático en la formulación de políticas, en la que se necesita un enfoque objetivo para abordar de manera proporcionada las diferentes poblaciones y justificar las decisiones tomadas.

Desafíos de implementación

Falta de datos de alta calidad y capacidad para compartirlos.
Brechas de habilidades.

Así como los gobiernos se enfrentan a una serie de desafíos a la hora de promover la evaluación de políticas, también se enfrentan a desafíos específicos al intentar utilizar la IA en este ámbito (OECD/UNESCO, 2024[131]). La gobernanza de datos inadecuada ha sido durante mucho tiempo un desafío para los evaluadores, lo que ha limitado la capacidad de los gobiernos para generar los datos necesarios para producir pruebas y evaluaciones (OECD, 2020[108]). Este problema persiste a pesar de que, al adherirse a la Recomendación de la OCDE sobre la Evaluación de Políticas Públicas (2023[132]), todos los países miembros se comprometieron a garantizar la disponibilidad de resultados, datos administrativos y de desempeño de alta calidad, oportunos, accesibles, desglosados y reutilizables para la evaluación de políticas.

La implementación de la IA requiere competencias digitales y de cálculo. Si bien no todos los miembros de un equipo de evaluación deben ser expertos, es importante asegurarse de que todos los evaluadores comprendan cómo la IA puede respaldar la evaluación de políticas. Por lo tanto, los evaluadores deben contar con el apoyo adecuado de equipos digitales y de ciencia de datos, que actualmente se están creando, como el de la Inspección General de Finanzas (IGF) de Francia. Los datos muestran que los evaluadores de las políticas han tardado más en adaptarse a los nuevos avances a nivel general, aunque algunos países cuentan con prácticas avanzadas. A menudo, la formación de los evaluadores en materia de desarrollo en el ámbito del análisis de macrodatos y la IA es limitada. Este es también el caso de las evaluaciones dentro del gobierno, que a menudo adolecen de capacidades analíticas internas y habilidades técnicas limitadas, lo que dificulta el desarrollo de evaluaciones de calidad (OECD, 2020[108]).

El conjunto de herramientas para la aplicación de la Recomendación de la OCDE sobre evaluación de políticas públicas (2025[107]) proporciona información sobre cómo los gobiernos pueden evaluar sus capacidades actuales de evaluación de políticas, identifica las mejores prácticas y los casos prácticos en todo el mundo e ilustra las posibles soluciones prácticas y herramientas para los responsables de la formulación de políticas y los evaluadores.

Potencial sin explotar y camino a seguir

En el ámbito de la evaluación de políticas, la IA puede realizar algunas tareas, lo que permite a los analistas gubernamentales utilizar una gama más amplia de evidencias y procesarlas más rápidamente. Si bien se identificaron algunas aplicaciones iniciales de la IA en el diseño, el análisis y la evaluación, la comunicación y la gestión de las evaluaciones, el uso de la IA en la evaluación de políticas sigue siendo limitado. Por este motivo, existen ámbitos en los que la IA puede tener un impacto significativo en la evaluación de políticas en el futuro.

En primer lugar, para apoyar el diseño de la evaluación, los chatbots podrían ayudar a los evaluadores a desarrollar su conocimiento en campos específicos. De hecho, si se les solicita, los chatbots pueden realizar varias actividades que pueden apoyar el aprendizaje. Como muestran algunos ejemplos iniciales de diseño de evaluación, también pueden apoyar el pensamiento creativo y utilizarse como herramientas útiles para el intercambio de ideas (Ferretti, 2023[133]). Aunque estas herramientas no generen nuevas evidencias, sí pueden proporcionar nuevos conocimientos útiles para las etapas iniciales de un proceso de evaluación. Recientemente, por ejemplo, la Investigación Profunda de ChatGPT intenta automatizar una gran parte del proceso de revisión y síntesis de evidencias. Usando el razonamiento de la cadena de pensamiento (CoT, por sus siglas en inglés), herramientas como la Investigación Profunda dividen preguntas de investigación complejas en subpreguntas más pequeñas y comprensibles que responde en secuencia. Este enfoque permite al sistema elaborar un informe detallado basado en el examen de las pruebas disponibles. Estas técnicas de CoT tienen el potencial de automatizar una gran parte del proceso de revisión y síntesis de evidencias. Esto podría permitir a los investigadores que anteriormente desarrollaban algunas revisiones desde cero automatizar, asegurar la calidad y basarse en docenas de revisiones de investigación generadas por la IA.

En segundo lugar, desde una perspectiva analítica, existe un gran potencial para que la IA se utilice en mayor medida para realizar evaluaciones ex ante y ex post más ambiciosas, utilizando una gama más amplia de datos y evaluando el impacto a través de métodos cuasi experimentales. Por ejemplo, la previsión del comportamiento impulsada por la IA puede analizar grandes cantidades de datos históricos y comportamientos observados para identificar patrones, anticipar decisiones y optimizar las experiencias de los usuarios mediante la integración de variables contextuales y estímulos externos. Las herramientas de ML pueden utilizarse para la predicción contrafactual en los casos en los que falta un grupo de control. Esto puede utilizarse, por ejemplo, en el caso de las evaluaciones de los precios del carbono, en las que los evaluadores de las políticas carecen de una perspectiva ex post. Un estudio propone un enfoque de evaluación de políticas que utiliza herramientas de ML y la teoría económica para la predicción contra fáctica con el fin de analizar los costos y los impactos de las emisiones del CPS del Reino Unido, "un impuesto al carbono aplicado a todas las centrales eléctricas de combustibles fósiles" (Abrell, Kosch and Rausch, 2022[134]).

Por último, a más largo plazo, la IA puede cambiar el enfoque de la formulación de políticas desde un ciclo de formulación de políticas y permitir que las evaluaciones se incorporen a la toma de decisiones en múltiples etapas. Dado que la IA agiliza las evaluaciones y, en cierta medida, las hace menos costosas, los académicos sugieren la posibilidad de pasar de un sistema en el que las evaluaciones suelen llegar demasiado tarde para la toma de decisiones a un enfoque en el que las pruebas de evaluación están disponibles para dar forma, ajustar y rediseñar las políticas casi en tiempo real. Esto se conoce como ciclo dinámico de políticas públicas (Jacob, 2025[125]). Dado que los países de todo el mundo se han enfrentado a una serie de crisis en los últimos años, es esencial que los gobiernos tengan acceso a pruebas de evaluación en las etapas clave de la toma de decisiones. Las evaluaciones rápidas se elaboran para fundamentar la adopción de decisiones urgentes y se han utilizado eficazmente con este fin, por ejemplo, en Australia (Better Evaluation Knowledge, 2022[135]). Aunque estas evaluaciones rápidas ahora se basan principalmente en datos cualitativos, la IA podría desempeñar un papel importante para que estas evaluaciones sean más sólidas y comunes en el futuro.

Sin embargo, para que la IA apoye eficazmente la evaluación, los gobiernos deben invertir en las competencias de los funcionarios públicos y en el desarrollo de una sólida infraestructura de datos. Una mayor colaboración internacional también puede potenciar el potencial de la IA en la evaluación de políticas. Los evaluadores necesitan conocer bien los posibles beneficios, riesgos y limitaciones de la IA para tomar decisiones informadas sobre cuándo y cómo utilizarla. Por este motivo, los gobiernos deben invertir en cursos de formación para evaluadores con el fin de asegurarse de que comprenden las diferentes herramientas de que disponen. Se han impartido formaciones en todos los gobiernos de la OCDE (véase el Capítulo 4, sección "Fomento de las competencias y el talento"). Sin embargo, estos se centran principalmente en el uso de la IA en la administración pública y no se adaptan al ámbito de la evaluación. Además de las formaciones, es importante apoyar la experimentación con IA y el aprendizaje práctico. El desarrollo de una red interministerial para intercambiar aplicaciones pertinentes de IA puede ser una buena forma de apoyar la adopción de la IA en diferentes tareas de evaluación. En la actualidad se están desarrollando algunas incubadoras, pero es necesario prestar más atención a la evaluación.

Como en el caso de otras áreas de política, los gobiernos deberían invertir en infraestructuras de datos pertinentes e intercambio de datos seguro y protegido (para un análisis detallado, véanse el Capítulo 4, secciones sobre "Creación de una base de datos sólida" y "Construcción de una infraestructura digital"). Algunas organizaciones gubernamentales, como el Centro Australiano de Evaluación, han elaborado guías para facilitar el descubrimiento de datos y el acceso a las actividades de apoyo a la evaluación (ACE, 2025[136]). Algunos países de la OCDE han desarrollado formas en las que se pueden vincular y acceder a diferentes conjuntos de datos en un entorno seguro para garantizar el análisis de políticas. En Dinamarca, por ejemplo, Statistics Denmark (2025[137]) facilita el uso de estas bases de datos a nivel micro con fines de investigación para analistas aprobados, universidades, organizaciones de investigación o ministerios. En los Países Bajos, el gobierno puso en marcha la Agenda de Datos, en la que se esbozan planes para mejorar la gestión de los datos personales, los datos abiertos y los macrodatos, aprovechando el análisis y la integración para la formulación de políticas informadas y abordando los desafíos sociales (Netherlands Ministry of the Interior and Kingdom Relations, 2019[138]).

Por último, la IA tiene potencial en la síntesis de evidencias. Existe un llamamiento más amplio en favor de una mayor colaboración en la generación de pruebas empíricas entre países, tras las iniciativas estratégicas apoyadas por países como el Reino Unido y Australia (Halpern and Maru, 2024[139]). Esta agenda reconoce la necesidad de una síntesis más rápida y confiable a nivel internacional, dado que la IA ya está ayudando a reducir los plazos de producción de pruebas. Esto podría ayudar a subsanar algunas de las deficiencias existentes con mayor rapidez.

Nota

Copiar enlace a Nota

← 1. https://kudos.dfo.no.

Featured topics

Agriculture and fisheries

Climate change

Development

Digital

Economy

Education and skills

Employment

Environment

Finance and investment

Governance

Health

Industry, business and entrepreneurship

Regional, rural and urban development

Science, technology and innovation

Society

Taxation

Trade

Energy

Nuclear energy

Transport

Featured topics

Agriculture and fisheries

Climate change

Development

Digital

Economy

Education and skills

Employment

Environment

Finance and investment

Governance

Health

Industry, business and entrepreneurship

Regional, rural and urban development

Science, technology and innovation

Society

Taxation

Trade

Energy

Nuclear energy

Transport

Países A - C

Países D - I

Países J - M

Países N - R

Países S - T

Países U - Z

Regional and global engagement

Países

Países A - C

Países D - I

Países J - M

Países N - R

Países S - T

Países U - Z

Regional and global engagement

Publications

Publications

Featured publications

Data

Data

Featured data

News & events

News & events

Featured events

About OECD

About

Engage with us

Work with us

Featured topics

Agriculture and fisheries

Climate change

Development

Digital

Economy

Education and skills

Employment

Environment

Finance and investment