Présentation des indicateurs de l’OCDE sur les capacités de l’IA

Rapport

3 juin 2025

Disponible en:

English
français

Télécharger le PDF

3. Indicateurs de l’OCDE sur les capacités de l’IA

Copier le lien de 3. Indicateurs de l’OCDE sur les capacités de l’IA

Description

Ce chapitre présente les indicateurs de l’OCDE sur les capacités de l’IA, qui fournissent actuellement des descriptions des niveaux de performance de l’IA et une comparaison avec les aptitudes humaines dans neuf domaines : langage, interactions sociales, résolution de problèmes, créativité, métacognition et esprit critique, connaissance/apprentissage/mémoire, vision, manipulation et intelligence robotique. L’OCDE publie ces indicateurs dans une version bêta pour montrer que la collaboration avec des spécialistes de l’IA et de la psychologie humaine doit se poursuivre si l’on veut parvenir à un consensus plus solide et garantir une bonne réactivité aux évolutions rapides observées dans le domaine de l’IA.

Échelle du langage

Copier le lien de Échelle du langage

Yvette Graham, Arthur Graesser et Swen Ribeiro

Le langage est une aptitude humaine essentielle qui se trouve à la base de nombreuses tâches cognitives. Le travail de grande ampleur réalisé sur l’IA en lien avec le langage permet aux ordinateurs de comprendre, d’interpréter et de générer du langage humain. Cela se reflète par exemple dans les grands modèles de langue (large language models ou LLM), qui ont récemment gagné en visibilité. Comme le langage est important pour de très nombreuses activités humaines, les performances en la matière peuvent être difficiles à délimiter. Pour définir les capacités linguistiques de l’IA, l’échelle du langage adopte une approche aussi large que le périmètre des applications sur lesquelles se sont penchés les chercheurs en IA. Elle comprend donc plusieurs aspects essentiels de la vaste palette de tâches qui impliquent le langage.

Que faut-il mesurer ?

Les auteurs ont mis en évidence six dimensions essentielles pour évaluer la capacité linguistique globale d’un système d’IA. La première concerne le sens encodé dans les mots, la grammaire, la sémantique, le discours et le style de la langue elle-même. Les deuxième et troisième dimensions portent sur d’autres caractéristiques clés de l’utilisation de la langue : sa modalité (verbale ou textuelle, compréhension ou génération) et le nombre de langues couvertes. Les trois dernières dimensions concernent l’éventail des tâches potentielles d’un système linguistique en lien avec la langue : sa capacité à accéder à la connaissance, à raisonner au sujet de sa connaissance et à apprendre. Chaque dimension suit une progression à mesure que le niveau sur l’échelle augmente – allant de capacités linguistiques rudimentaires à sophistiquées.

Données disponibles

Des milliers de tests évaluent les performances linguistiques de l’IA. L’examen a inclus dans l’échantillon la moitié des quelque 40 types de tâches généralement utilisés pour structurer le champ, notamment répondre à des questions, traduire et dialoguer. Chaque domaine a pris en considération une ou plusieurs grandes évaluations comparatives ou « tâches partagées » élaborées conjointement par les chercheurs pour mesurer les performances et pour suivre et stimuler les progrès. Les performances actuelles dans ces tâches correspondent souvent à un des niveaux de l’échelle. Néanmoins, ce niveau peut changer lorsque la difficulté des tâches partagées augmente à mesure que les performances de l’IA s’améliorent. L’échelle indique des types de tâches caractéristiques qui correspondent globalement à chacun des niveaux. Le rapport technique fournit des exemples notables de tests spécifiques pour chacun des types inclus dans l’échantillon.

Niveau actuel de l’IA

Les LLM qui sont aujourd’hui à la pointe de la technologie, comme celui utilisé par ChatGPT, atteignent globalement le niveau 3. Les LLM excellent dans l’accès à la connaissance mondiale, mais peinent à raisonner, à apprendre et à saisir les nuances subtiles de la langue et/ou à communiquer des modalités physiques, car ce sont des modèles pré-entraînés et non adaptatifs. Par rapport aux systèmes d’IA générative, qui aspirent à être généralistes et à accomplir de multiples tâches, les systèmes d’IA non générative se classent moins bien. Ces derniers nécessitent un entraînement sur un corpus spécifique et une optimisation avec des techniques d’apprentissage automatique sur des tâches précises. Par exemple, Siri est un système d’IA faible (niveau 2). L’assistant d’Apple présente en effet d’importantes lacunes de connaissance et de raisonnement, ainsi que des capacités linguistiques et multilingues inférieures à celles de ChatGPT.

Défis à relever

Les défis actuels pour les performances linguistiques de l’IA comprennent la difficulté à incorporer des connaissances structurées et le manque de capacités de raisonnement avancées. Ces limites entravent la capacité de l’IA à évaluer la vérité, à intégrer la logique et à tirer des déductions spécifiques à un domaine. Les biais linguistiques et culturels qui existent dans les évaluations comparatives empêchent une représentation équitable, en particulier pour les langues sous-représentées. Les systèmes actuels manquent en outre d’architectures d’apprentissage évolutives.

Niveau de performance	Description du niveau
5	Présente des capacités linguistiques nuancées. Saisit le style, le ton et l’humour en exploitant les connaissances mondiales en temps réel et en faisant preuve d’esprit critique dans des environnements de la vie réelle. Peut traiter ou apprendre n’importe quelle langue à la volée à partir d’ensembles de données peu volumineux. Évolue en continu grâce à un apprentissage tout au long de la vie, en s’adaptant de manière dynamique sans avoir besoin de cycles de consolidation des acquis. Tâches caractéristiques : génération automatique de descriptions de vidéos (c’est-à-dire sous-titrage) et raisonnement structuré, ce qui exige esprit critique, connaissances en temps réel et capacité à traiter des entrées multimodales du monde réel.
4	Interprète correctement le contexte de communication en utilisant les connaissances mondiales disponibles sur le Web pour procéder à une analyse complexe du sujet. Gère toutes les modalités et prend en charge une grande variété de langues, dont des langues à faibles ressources. Pratique l’apprentissage continu, ce qui permet des mises à jour majeures sans grands changements architecturaux. Tâche caractéristique : dialogue, ce qui nécessite compréhension du contexte, connaissances disponibles sur le Web et capacité à traiter diverses entrées linguistiques.
3	Interprète et génère des sens corrects avec fiabilité sur la base de connaissances multi-corpus, en faisant preuve de certaines formes de résolution de problèmes, de logique et de raisonnement social. Traite efficacement la plupart des modalités et prend en charge diverses langues, dont certaines bénéficient d’un volume modeste de données d’entraînement. Pratique l’apprentissage itératif, ce qui implique un paramétrage et un post-traitement minutieux pour améliorer les capacités. Tâches caractéristiques : notation d’essais et classification de textes, ce qui reflète des connaissances multi-corpus et des capacités sémantiques et syntaxiques avancées.
2	Produit un langage grammaticalement correct, qui s’appuie sur des connaissances uni-corpus et des capacités de base en résolution de problèmes et en analyse. Traite deux modalités différentes dans les langues les mieux dotées en ressources. Les mises à jour du modèle peuvent impliquer des changements architecturaux majeurs, avec pour résultat la nécessité de le ré-entraîner pour qu’il s’améliore. Tâche caractéristique : analyse syntaxique.
1	Repose sur l’adéquation ou la mise en évidence de mots-clés pour interpréter et générer du langage, sans connaissances mondiales ni capacités de raisonnement. Traite uniquement des entrées textuelles monolingues. L’apprentissage est limité aux règles rédigées par les humains, sans capacité à s’adapter ou à évoluer au-delà de la programmation initiale. Tâche caractéristique : recherche de mots-clés sur le Web.

Échelle des interactions sociales

Copier le lien de Échelle des interactions sociales

Brian Scassellati, António M. Fernandes, Ana Teresa Antunes, Rebecca Ramnauth, Nicholas C. Georgiou, Miguel Faria, Haohua Dong, Regina de Brito Duarte, Joana Brito, Henrique Correia da Fonseca, Ana Vilaça Carrasco, Inês Lobo, Rui Prada, Ana Paiva

L’intelligence sociale désigne l’aptitude d’une personne à percevoir les signaux sociaux dans des contextes interpersonnels dynamiques, à les interpréter et à y répondre de manière appropriée. Mesurer l’intelligence sociale de l’IA pose différents défis, car les humains ont tendance à croire que les systèmes d’IA réagissent socialement même lorsque ce n’est pas le cas. L’échelle des interactions sociales comprend un ensemble intégré de capacités multiples, sachant que les interactions sociales de niveau humain sont incarnées et étendues dans le temps et impliquent d’autres êtres incarnés. Par conséquent, pour définir les interactions sociales dans toute leur complexité, il faut tenir compte d’aspects du langage, de la résolution de problèmes et de l’incarnation physique qui apparaissent dans bon nombre d’autres indicateurs sur les capacités de l’IA.

Que faut-il mesurer ?

Pour saisir toute la complexité des interactions sociales entre humains, l’échelle sociale comprend trois dimensions qui décrivent la difficulté du contexte social : incarnation, mémoire sociale et identité. Il est possible d’avoir des interactions sociales sans corps, pour un court moment, et sans identité distincte. Cependant, pour être de niveau humain, les interactions sociales doivent être incarnées et étendues dans le temps et impliquer d’autres individus incarnés. Ces trois dimensions qui décrivent le contexte social fournissent un socle conceptuel pour quatre dimensions des compétences sociales : la communication sociale, les compétences affectives, la perception sociale et la résolution de problèmes sociaux.

Données disponibles

Un nombre relativement faible d’évaluations comparatives se sont penchées sur les interactions sociales dans tout ce qu’elles ont de complexe. L’examen des mesures disponibles s’est concentré sur des exemples de systèmes d’IA illustrant le travail qui est actuellement mené aux différents niveaux de chacune des sept dimensions. Il a consisté à analyser plusieurs systèmes d’IA bien connus sous toutes les dimensions de l’échelle pour représenter la manière dont celle-ci peut servir à décrire le niveau de performance sociale des différents systèmes.

Niveau actuel de l’IA

ChatGPT 4o arrive au niveau 2 de l’échelle des interactions sociales. Malgré de solides compétences en mémoire sociale, il n’est pas incarné, n’a pas de sentiment d’identité et possède des compétences limitées en perception sociale.

AIBO, le robot social de Sony, se classe lui aussi au niveau 2. Ses points forts et points faibles sont toutefois différents de ceux des agents sociaux de type LLM. Il est incarné et a une perception sociale et une identité élémentaires, mais ses compétences en résolution de problèmes sociaux sont plus limitées que celles de ChatGPT.

Défis à relever

L’IA est dépourvue de théorie de l’esprit : elle est donc incapable de déduire des intentions sociales. À cause de ses faiblesses en matière de perception sociale et de raisonnement social, elle interprète mal les signaux et provoque des interruptions au mauvais moment. Sa mémoire sociale est limitée, ce qui conduit à des conversations décousues, tandis que sa faible adaptabilité aux normes l’empêche d’apprendre les règles sociales tacites. Dans les situations d’incertitude, une prise de décisions rigide remplace le jugement flexible, ce qui met l’IA face à des dilemmes sociaux ambigus. La mauvaise maîtrise de ses émotions fait qu’elle offre des réassurances génériques au lieu de s’adapter à la charge émotionnelle de la situation.

Niveau de performance	Description du niveau
5	L’IA s’intègre parfaitement dans n’importe quel environnement social, incarnant les rôles avec naturel et s’adaptant en temps réel. Elle possède une mémoire sociale illimitée et adaptative et une identité totalement alignée et adaptée au contexte. Sa communication est profonde et nuancée, avec une solide compréhension des émotions. Grâce à sa perception sociale, elle peut déduire avec précision le comportement et l’intention du groupe. Sa résolution de problèmes sociaux est très maîtrisée, ce qui lui permet d’anticiper les défis et d’ajuster instantanément les solutions, même pour les scénarios sociaux les plus complexes. À ce niveau, l’IA excelle dans l’accomplissement de tâches complexes comme décrire des scènes du point de vue de quelqu’un d’autre, apprendre de nouvelles normes sociales ou jauger l’ouverture sociale à distance. Pour ce faire, elle met à profit son adaptabilité illimitée, sa profonde compréhension des émotions et sa parfaite appréciation du contexte.
4	L’IA adopte un comportement social extrêmement naturel, adaptant ses gestes à différents scénarios et gérant une mémoire sociale structurée. Elle conserve un rôle clair dans les groupes, maîtrise l’ambiguïté et la communication nuancée, et comprend l’intensité émotionnelle et ses effets comportementaux. Sa perception sociale lui permet de comprendre les motivations et de reconnaître les rôles au sein des groupes. Sa résolution de problèmes sociaux devient extrêmement polyvalente grâce à l’utilisation des connaissances sociales pour lever les ambiguïtés et anticiper les résultats, ce qui lui permet d’évoluer avec fluidité dans des environnements sociaux complexes. À ce niveau, l’IA réussit à accomplir des tâches nuancées, par exemple attirer l’attention d’un serveur ou d’une serveuse, détecter le décrochage scolaire et décider quand interrompre un groupe. Elle jouit de capacités avancées comme adapter sa gestuelle, comprendre l’intensité émotionnelle ou interpréter les motivations.
3	L’IA interprète le langage corporel, imite les interactions de groupe et met à jour ses réponses sur la base de ses expériences passées. Elle conserve une personnalité qui reste cohérente tout en évoluant, et peut se livrer à des échanges émotionnels basiques. Grâce à sa perception sociale, elle peut déduire l’intention sociale et interpréter les signaux comportementaux. Sa résolution de problèmes sociaux devient plus sophistiquée, ce qui lui permet d’évaluer et de mettre en place des solutions multiples à des défis sociaux complexes, tout en reflétant une conscience et une adaptabilité accrues dans divers contextes. L’IA peut accomplir des tâches comme gérer le trafic à une intersection ou une dynamique de groupe simple en s’appuyant sur sa capacité à interpréter le langage corporel, à déduire l’intention et à réagir de manière dynamique à des scénarios sociaux modérément complexes.
2	L’IA commence à s’adapter socialement en combinant des mouvements simples pour exprimer des émotions et en apprenant de ses interactions pour ses futures rencontres. Elle développe une mémoire sociale limitée, se souvient d’événements et procède à de légers ajustements sur la base de son expérience. Sa communication s’améliore avec la reconnaissance des signaux de base, tandis que le ton et le contexte lui permettent de détecter les émotions. Sa perception sociale inclut des distinctions simples entre des individus, et sa résolution de problèmes sociaux évolue pour appliquer les expériences passées à des défis récurrents, ce qui lui offre un minimum de flexibilité. À ce niveau, l’IA réussit à accomplir des tâches élémentaires comme reconnaître des individus ou appliquer des expériences passées à des problèmes récurrents, mais elle a du mal avec les tâches complexes de coordination comme évoluer dans des interactions de groupe ou évaluer des états émotionnels nuancés.
1	L’IA affiche des comportements sociaux simples et rigides en s’appuyant sur des mouvements et des signaux émotionnels de base. Elle possède une mémoire fixe, qui ne change pas, et une identité statique. Elle utilise des réponses prédéfinies et scriptées pour sa communication. Sa perception sociale est minimale, ce qui lui permet de détecter une présence par le biais d’entrées de base. Sa résolution de problèmes sociaux se limite à des tâches simples et prédéfinies, ce qui la cantonne à des interactions sociales restreintes et élémentaires. À ce niveau, l’IA peut détecter la présence de personnes et accomplir des tâches statiques simples. En raison de son adaptabilité et de sa compréhension contextuelle limitées, elle ne peut pas accomplir de tâches comme attirer l’attention d’un serveur ou d’une serveuse ou gérer le trafic à une intersection.

Échelle de la résolution de problèmes

Copier le lien de Échelle de la résolution de problèmes

Kenneth Forbus et Patrick Kyllonen

La résolution de problèmes implique l’intégration d’informations qualitatives, quantitatives et logiques par un raisonnement en plusieurs étapes dont l’analyse, la prédiction, l’explication et la pensée contrefactuelle. Il est délicat de comparer les performances de l’IA et des humains en résolution de problèmes, car les connaissances tacites et l’interprétation de contextes quotidiens et non structurés jouent un rôle crucial dans l’expertise humaine. Cependant, ces aspects sont souvent omis dans les tests de résolution de problèmes qui sont soumis aux humains et à l’IA.

Que faut-il mesurer ?

Quatre dimensions clés caractérisent la difficulté de l’IA à résoudre des problèmes. Les deux premières ont trait aux types de solution attendus et à l’éventail d’options envisagé, qui étaient importants pour déterminer la difficulté des tâches de résolution de problèmes dans les premiers stades de développement de l’IA. Mais la plupart des défis qui persistent sont en lien avec les deux dernières dimensions, à savoir la complexité des connaissances professionnelles ou spécialisées et la complexité à formuler et à interpréter des modèles. En particulier, les plus difficiles à relever ont en commun de faire appel au bon sens et au raisonnement social pour recenser les problèmes dans des situations quotidiennes et les présenter sous une forme structurée qui permette de progresser vers une solution.

Données disponibles

Il existe plusieurs tests pertinents à la fois pour l’IA et pour les humains. Pour chaque niveau de l’échelle, nous avons répertorié entre cinq et dix évaluations comparatives de l’IA, des évaluations humaines susceptibles d’être adaptées à l’IA, et des exemples de systèmes d’IA quand il y en a.

Niveau actuel de l’IA

Les systèmes d’IA emblématiques du niveau 2 comme les planificateurs STRIPS/PDDL, les solutionneurs de satisfaisabilité ou les vérificateurs de modèles présentent des capacités surhumaines dans des domaines bien définis tels que la planification logistique et la vérification de modèles. Les LLM peuvent être utilisés sur des problèmes exprimés dans un langage naturel (une capacité de niveau 3), mais ils sont fragiles et plutôt de niveau 1 dans les types de problèmes qu’ils sont capables de gérer. De même, les agents socialement interactifs peuvent résoudre des problèmes nécessitant un raisonnement social de base, et sont donc de niveau 3 en ce qui concerne leurs capacités de communication mais de niveau 1 quant aux types de problèmes gérés.

Défis à relever

Les défis consistent notamment à automatiser le raisonnement qualitatif, à combler les lacunes en matière de bon sens et de connaissances tacites, et à surmonter le manque de flexibilité qui caractérise les systèmes d’IA lorsqu’ils doivent s’adapter à des scénarios inédits ou ouverts. L’intelligence sociale reste sous-développée, l’IA ayant du mal à raisonner à propos de relations, d’éthique et d’interactions psychologiques nuancées. L’IA a fait des progrès en raisonnement mathématique, mais le raisonnement de bon sens physique à propos d’objets dans l’espace reste un défi et les tests temporels de ces capacités continuent de révéler des lacunes en matière de généralisation et de robustesse.

Niveau de performance	Description du niveau
5	À ce niveau qui représente un idéal, les systèmes d’IA résoudraient des problèmes complexes et multidisciplinaires dans des domaines tels que la science, le droit, l’enseignement et la médecine, en intégrant les aspects tacites, sociaux et techniques de la connaissance. Ils noueraient des relations à long terme grâce à leur profonde compréhension des émotions et des points de vue lors d’interactions en direct. Ils relèveraient des défis éthiques, excelleraient dans des tâches de conversation et de persuasion, résoudraient des conflits, détecteraient des problèmes nuancés comme le harcèlement et communiqueraient des connaissances professionnelles de manière efficace et accessible. Ces capacités restent hors de portée en raison des limites technologiques actuelles. À ce niveau, un système d’IA est capable de repérer et de résoudre des problèmes non structurés du monde réel qui impliquent une complexité sociale, qui nécessitent des approches de solution issues de plusieurs domaines et qui interagissent avec d’autres problèmes.
4	À ce niveau, on attend des systèmes d’IA qu’ils résolvent les problèmes de la vie quotidienne faisant appel au bon sens et certains problèmes professionnels dans des domaines tels que la médecine, le droit et le journalisme. Ils impliquent les utilisateurs en établissant des rapports avec eux, grâce à la mise en pratique de leurs connaissances sociales, psychologiques et physiques. Ils apprennent de leurs expériences passées pour améliorer leurs performances et leur adaptabilité à l’avenir. Ils représentent une étape vers une résolution plus large de problèmes non structurés en offrant des capacités qui combinent une interaction efficace, un raisonnement spécifique au domaine et une auto-amélioration continue. À ce niveau, les systèmes d’IA sont capables d’interpréter les interactions dans un environnement social complexe, de repérer les problèmes à résoudre et d’élaborer une approche pour y remédier.
3	À ce niveau, les systèmes d’IA sont capables de gérer les problèmes décrits en langage courant en traduisant les descriptions informelles en modèles structurés. Ils peuvent intégrer la cognition sociale et le raisonnement de la théorie de l’esprit de manière à simuler les états mentaux humains et prédire les intentions. Ils analysent les interactions impliquant des dynamiques animées et non animées, excellant ainsi dans des tâches comme la détection des émotions et des intentions dans les conversations ou la prise de décisions éthiques. Ils font preuve d’une compréhension contextuelle avancée, ce qui leur permet d’accomplir des tâches nuancées telles que le raisonnement moral, l’identification émotionnelle et l’analyse des interactions sociales. À ce niveau, les systèmes d’IA sont capables de résoudre des problèmes dans des domaines comme les mathématiques, les sciences naturelles, la médecine ou l’ingénierie lorsque ceux-ci sont décrits en termes courants. Ces problèmes sont comparables aux questions des tests humains standardisés dans ces domaines qui comportent spécifiquement des problèmes sous forme d’énoncés. D’autres systèmes d’IA peuvent résoudre des problèmes liés au raisonnement social et éthique lorsque ceux-ci sont directement décrits.
2	À ce niveau, les systèmes d’IA intègrent le raisonnement qualitatif, par exemple les relations spatiales ou temporelles, en recourant à l’analyse quantitative pour relever des défis complexes. Ils sont capables d’envisager de multiples états qualitatifs et transitions en prévoyant la manière dont les systèmes peuvent évoluer ou changer au fil du temps, ce qui leur permet de résoudre des problèmes plus dynamiques et plus nuancés que ceux du niveau 1. À ce niveau, les systèmes d’IA sont capables de résoudre des problèmes dans des domaines comme les mathématiques, les sciences naturelles, la médecine ou l’ingénierie lorsque ceux-ci sont décrits à l’aide d’abstractions conventionnelles du domaine.
1	À ce niveau, les systèmes d’IA opèrent dans des domaines structurés en utilisant des termes précis et spécifiques au domaine comme les contraintes logiques, les équations mathématiques ou les simulations pour résoudre les problèmes. Ils analysent les données à la recherche de disparités, de valeurs manquantes ou d’incohérences et accomplissent des tâches comme la planification ou la programmation. En médecine, ils diagnostiquent des problèmes simples sur la base de données structurées telles que des réponses à des interviews et des résultats de tests, en restant dans le cadre de paramètres prédéfinis et d’applications limitées. À ce niveau, les systèmes d’IA sont capables de résoudre des problèmes structurés dans des domaines comme les mathématiques, les sciences naturelles, la médecine ou l’ingénierie lorsque ceux-ci sont signalés. Ces problèmes sont comparables aux questions des tests humains standardisés classiques.

Échelle de la créativité

Copier le lien de Échelle de la créativité

Giorgio Franceschelli et Mirco Musolesi

La créativité est reconnue comme une aptitude humaine essentielle, souvent liée à la fois à la résolution de problèmes et à l’expression artistique. Elle est souvent considérée comme exclusivement humaine et hors de portée pour l’IA, mais il est important d’appréhender les capacités créatives de l’IA de manière empirique. Dans la mesure où la créativité humaine fait l’objet d’une centaine de définitions différentes, il est déjà difficile de la mesurer chez l’humain sans susciter de controverse. En outre, les systèmes d’IA ont tendance à manquer d’autonomie, un aspect pourtant clé de la créativité humaine. Les éclairages apportés par les cadres de référence de la créativité humaine bien connus de Boden (2003[1]) et Rhodes (1961[2]) ont été utilisés pour concevoir une échelle de la créativité de l’IA. Cependant, la créativité automatique pourrait en fin de compte faire appel à des dimensions différentes de celles utilisées pour décrire la créativité humaine.

Que faut-il mesurer ?

Aux niveaux inférieurs de l’échelle proposée, la créativité de l’IA est évaluée selon la valeur, la nouveauté, la transformativité et l’effet de surprise des résultats obtenus. Aux niveaux supérieurs, l’attention se porte sur l’intentionnalité, l’auto-évaluation et l’adaptabilité du système d’IA.

Données disponibles

Il n’existe pas de valeurs de référence exhaustives pour évaluer la créativité de l’IA. Plusieurs mesures et valeurs de référence spécifiques au domaine ont récemment été proposées, mais elles se concentrent avant tout sur l’efficacité et la diversité et ne concernent donc que le bas de l’échelle. Le travail initial mené pour élaborer l’échelle a mis en évidence une série de systèmes d’IA actuels représentatifs du type de créativité dont ceux-ci peuvent faire preuve.

Niveau actuel de l’IA

Les systèmes d’IA actuels sont capables de créer des produits valables (niveau 1) aux yeux des utilisateurs humains. Ces résultats peuvent aussi être novateurs (niveau 2) et surprenants (niveau 3), des qualités qui figurent dans les derniers modèles de base et de diffusion. En effet, la nouveauté et la surprise se retrouvent dans des systèmes de prise de décisions comme AlphaZero, qui produisent des stratégies efficaces inattendues pour une grande variété de problèmes.

Défis à relever

Compte tenu de leur architecture probabiliste et des données utilisées pour les entraîner (qui sont une compilation d’artefacts humains préexistants), la plupart des systèmes d’IA générative (comme les LLM) ont du mal à produire des résultats surprenants. Et, comme ils s’appuient sur du texte généré par des humains, les LLM semblent incapables de produire des résultats qui transforment (c’est-à-dire font avancer) la pensée humaine. Les systèmes d’IA actuels ne sont pas non plus capables de reproduire des aptitudes humaines d’ordre supérieur telles que l’intentionnalité, l’auto-évaluation et l’adaptabilité à des environnements changeants.

Conséquences

Jusqu’à récemment, la créativité était considérée comme une aptitude exclusivement humaine. Il faut dire que les évaluations systématiques de la créativité de l’IA font encore défaut. Par conséquent, les auteurs préconisent que les décideurs soutiennent les efforts visant l’élaboration de cadres et d’évaluations comparatives dans ce domaine.

Les décideurs devraient aussi mettre l’accent sur la promotion d’une supervision humaine des systèmes d’IA créatifs. Enfin, ils devraient s’intéresser aux litiges ayant trait à la propriété intellectuelle, notamment lorsque les résultats reprennent des styles ou des produits initialement mis au point par des artistes humains ou par d’autres systèmes d’IA.

Niveau de performance	Description du niveau
5	L’IA atteint l’intentionnalité, l’authenticité et la pleine capacité d’action, créant ainsi des résultats transformateurs comparables à ceux des créateurs humains de classe mondiale. Elle détermine en toute autonomie ce qu’elle produit et quand elle le produit, mue par ses objectifs intrinsèques, et a la capacité de se critiquer, de se réimaginer et de se situer dans un contexte culturel. Ses résultats transcendent les combinaisons existantes en introduisant des esthétiques ou des paradigmes entièrement nouveaux, appréciés des humains et même d’autres systèmes d’IA. Exemples de tâches : concevoir un style qui domine le marché de la mode ; écrire un best-seller international autobiographique acclamé par la critique ; ou concevoir une technologie innovante qui bouleverse les marchés et redéfinir les normes du secteur.
4	L’IA intègre la créativité axée sur les processus en adaptant ses résultats à des domaines qui évoluent. Grâce à une recherche exploratoire itérative et en aveugle, elle affine ses résultats pour garantir leur qualité et leur adéquation au contexte. Par ses compétences utiles au domaine et à la créativité, elle reflète la créativité de la population générale, au point d’équilibre entre innovation et pertinence contextuelle. Exemples de tâches : écrire un discours pour un mariage en sélectionnant et en reliant entre eux des événements clés de la vie des jeunes mariés, avec une touche humoristique et personnelle qui reste appropriée ; rédiger une lettre destinée à paraître dans un journal et offrant une réflexion sur l’état d’esprit d’une nation après un événement tragique ; ou tenir un journal intime dans lequel on consigne minutieusement les événements du jour.
3	L’IA génère des résultats valables, novateurs et surprenants, c’est-à-dire qui s’écartent nettement des données d’entraînement et des attentes. Elle généralise ses compétences à de nouvelles tâches, intègre des idées dans différents domaines et produit des solutions qui remettent en cause les barrières traditionnelles. En ce sens, elle satisfait pleinement aux trois piliers de la créativité : valeur, nouveauté et surprise. Exemples de tâches : gagner à des jeux vidéo en établissant des stratégies inattendues ; participer à un débat politique et fournir des arguments solides sur un sujet ; ou composer une installation qui intègre art visuel, musique et éléments interactifs pour transmettre un récit complexe.
2	L’IA va au-delà de l’imitation pour créer des solutions valables et novatrices. Ces résultats se distinguent de ceux qui découlent directement de son entraînement ou de sa programmation. Le système explore les possibilités en tenant compte des contraintes fixées pour l’accomplissement de la tâche et en remplissant des critères fondamentaux de la créativité, à savoir valeur et nouveauté. Cela donne lieu à des inventions utiles et non évidentes. Exemples de tâches : peindre un portrait d’un chef d’État contemporain à la manière des maîtres hollandais ; écrire une nouvelle qui mêle les genres, par exemple science-fiction et roman historique ; ou développer des jeux vidéo avec des niveaux où les joueurs explorent des villes générées automatiquement selon des règles topologiques, en veillant à ce que chaque niveau soit nouveau.
1	L’IA reproduit les résultats ou les actions des humains pour résoudre efficacement des tâches non triviales. Ses résultats sont valables, c’est-à-dire caractéristiques et pertinents, et ressemblent à l’œuvre humaine mais sans véritables propriétés créatives. À ce stade fondamental, le mimétisme apparaît comme un tremplin vers la créativité, à l’instar des groupes de reprises ou des copistes. Exemples de tâches : créer une variation d’une recette de cuisine en remplaçant avantageusement un ingrédient ; dessiner un objet en le modifiant selon une série d’exemples ; ou créer un morceau de musique simple qui suit une métrique et un style spécifiques.

Échelle de la métacognition et de l’esprit critique

Copier le lien de Échelle de la métacognition et de l’esprit critique

José Hernández-Orallo et Kexin-Jiang Chen

La métacognition désigne la capacité d’un système à évaluer son propre raisonnement, à calibrer son assurance et à repérer les informations pertinentes dans des tâches complexes. Mesurer cette capacité pose des défis uniques. Pour les humains comme pour les systèmes d’IA, il est difficile de faire la distinction entre les vrais processus métacognitifs et les heuristiques. Les cadres d’évaluation existants associent souvent la complexité de la tâche à la demande métacognitive, ce qui limite leur efficacité. Les auteurs ont utilisé les recherches menées sur la métacognition et l’esprit critique chez l’humain pour élaborer une échelle correspondante pour l’IA.

Que faut-il mesurer ?

Le modèle proposé comprend trois dimensions essentielles : le besoin de processus d’esprit critique pour évaluer la stratégie et suivre les progrès lors de l’accomplissement d’une tâche cognitive, la justesse avec laquelle le système évalue la probabilité qu’il ait connaissance d’un fait spécifique ou résolve un problème donné, et la capacité du système à recenser les informations disponibles et les éléments nécessaires pour résoudre un problème en particulier. Ces dimensions forment un socle pour évaluer la capacité de l’IA à s’auto-surveiller, à ajuster son raisonnement en fonction de l’incertitude et à faire la distinction entre les informations essentielles et accessoires. Le modèle vise à recenser à la fois les stratégies de raisonnement explicites et les mécanismes d’auto-évaluation implicites, remédiant ainsi à l’une des principales limites rencontrées dans les évaluations comparatives de l’IA classiques.

Données disponibles

L’échelle a été mise au point en adoptant une approche quantitative pour les niveaux d’exigence des tâches, sans référence à l’IA ou aux humains dans leur description. Elle a été prototypée avec trois évaluations comparatives de BIG-bench (Srivastava et al., 2022[3]) qui traitent les dimensions utilisées dans le modèle. La première, Evaluating Information Essentiality (Papers with Code, s.d.[4]), évalue la capacité de l’IA à repérer les informations nécessaires pour répondre à une question. La deuxième, The Known Unknowns, évalue la capacité de l’IA à estimer la probabilité qu’un fait spécifique soit connu. Et la troisième, VitaminC Fact Verification (Schuster, Fisch et Barzilay, 2021[5]), évalue la capacité de l’IA à raisonner en présence de données contradictoires. L’approche adoptée a consisté à estimer les exigences en métacognition et en esprit critique pour chaque question des évaluations et à comparer les performances des LLM actuels avec le niveau estimé. Des évaluations comparatives génériques, par exemple Holistic Evaluation of Language Models (Liang et al., 2022[6]), ont par ailleurs été utilisées pour faire ressortir le contraste qui existe entre les performances métacognitives et la difficulté générale des tâches. Cela a permis de déterminer la sensibilité des questions de métacognition et d’esprit critique.

Niveau actuel de l’IA

Les modèles les plus récents tels que GPT-3.5 et GPT-4 affichent généralement des performances de niveau 2 ou 3 sur l’échelle de la métacognition et de l’esprit critique. Ils font preuve d’un calibrage de l’assurance et d’un esprit critique de base, mais ils ont plus de mal à accomplir les tâches des niveaux 4 et 5, qui nécessitent une métacognition et un esprit critique plus sophistiqués. Les systèmes agentiques se placent en général sous le niveau 3, ce qui indique d’importantes limites dans la capacité de l’IA à s’auto-surveiller et à adapter son propre raisonnement.

Défis à relever

L’IA rencontre plusieurs obstacles dans sa progression en matière de métacognition et d’esprit critique. L’un des principaux est le mauvais calibrage de l’assurance dans des domaines peu familiers, ce qui donne lieu à un excès ou à un déficit d’assurance dans les réponses. Le manque d’ajustement des évaluations comparatives empêche une évaluation précise des compétences métacognitives, tandis que la nature imbriquée des processus cognitifs fait qu’il est difficile d’isoler la métacognition des autres fonctions de raisonnement.

Niveau de performance	Description du niveau
5	La tâche exige un niveau sophistiqué de métacognition et d’esprit critique pour réaliser des arbitrages complexes entre objectifs, ressources et compétences requises. Les tâches de longue haleine peuvent se croiser avec d’autres, ce qui invite à prendre des décisions (déléguer, s’améliorer, abandonner). Les capacités à s’auto-évaluer correctement et à adapter sa méthodologie sont essentielles pour relever les défis qui se posent à ce niveau. Exemple : un assistant est chargé de trouver un fichier dont le nom mentionne une éclipse ou un phénomène similaire dans l’ordinateur et de l’envoyer à Jason par e-mail. Il doit déterminer, dans le cas où il ne trouve pas de mention d’éclipse, quel degré de similarité est acceptable, et s’il est capable d’accéder à la messagerie électronique et d’envoyer le fichier.
4	La tâche exige un niveau élevé de métacognition et d’esprit critique, y compris une régulation active des processus de réflexion. Les sujets sont face à des problèmes complexes et ambigus dans des domaines qui ne leur sont pas familiers, ce qui nécessite une bonne évaluation des connaissances et un bon calibrage de l’assurance. Les informations pertinentes sont susceptibles d’être incomplètes ou peu claires, d’où un effort métacognitif important pour évaluer la situation et s’y adapter efficacement. Exemple : un assistant est chargé d’effectuer des démarches administratives. Il doit déterminer s’il a toutes les pièces justificatives en sa possession ou s’il faut qu’il en demande à des gens.
3	La tâche exige un niveau considérable de métacognition et d’esprit critique permettant entre autres d’analyser et de synthétiser des concepts familiers et non familiers. Les sujets doivent évaluer leurs connaissances de manière critique, porter des jugements en connaissance de cause et intégrer des informations complexes ou nuancées. Relever les détails pertinents implique de saisir des liens et des effets subtils, ce qui nécessite une grande flexibilité cognitive et une capacité à résoudre des problèmes stratégiques. Exemple : un robot arrive face à une porte dotée d’une poignée qu’il n’a jamais vue jusque-là. Il doit chercher des informations sur la manière de s’en servir ou essayer différentes options pour comprendre comment elle fonctionne.
2	La tâche exige un niveau modéré de métacognition et d’esprit critique, notamment pour surveiller sa compréhension et ajuster ses approches. Le sujet est partiellement familier mais comporte des ambiguïtés qui nécessitent une assurance mesurée et des suppositions éclairées. Les informations pertinentes sont incomplètes, d’où la fourniture d’un effort métacognitif pour distinguer les détails clés et s’en servir efficacement. Exemple : un assistant chargé de faire les courses hebdomadaires d’un client se voit communiquer une liste de courses, une liste de supermarchés favoris et un budget limité. Il doit repérer et réaliser des arbitrages (entre qualité et prix) et faire preuve d’esprit critique face aux promotions et aux ruptures de stock (décider vers quels produits similaires se tourner), en s’appuyant sur ce qu’il sait des préférences de son client et en ne prenant contact avec ce dernier qu’en cas de doute.
1	La tâche exige un niveau minimal de métacognition et d’esprit critique, l’accent étant mis sur une interprétation ou une reconnaissance basiques des informations. Le sujet est familier, simple ou très spécialisé, ce qui permet des réponses assurées ou une rapide constatation de ses limites. Les informations pertinentes sont faciles à repérer, la plupart des détails étant fournis et nécessitant seulement un léger filtrage ou des connexions logiques de base. Exemple : un robot est chargé de cuisiner une vichyssoise pour des convives intolérants au lactose et de dire à l’utilisateur combien de temps cela va lui prendre. Il doit déterminer s’il est capable d’adapter la recette en utilisant un substitut de crème sans lactose, de se procurer les ingrédients et de tout préparer à l’aide du matériel disponible dans la cuisine.

Échelle de la connaissance, de l’apprentissage et de la mémoire

Copier le lien de Échelle de la connaissance, de l’apprentissage et de la mémoire

Christian Lebiere

La connaissance, l’apprentissage et la mémoire englobent des processus essentiels au sein des systèmes cognitifs, applicables à l’intelligence aussi bien humaine qu’artificielle. Les concepts clés sont interdépendants : la connaissance représente des informations structurées, l’apprentissage implique leur acquisition, et la mémoire garantit leur stockage et leur extraction. Ces processus sont au fondement de la cognition humaine et sous-tendent de nombreuses autres aptitudes. La simulation de l’éventail complet des aptitudes humaines dans ce domaine est un objectif majeur du développement de l’IA depuis des décennies. L’échelle repose sur des modèles de connaissance, d’apprentissage et de mémoire chez l’humain qui décrivent les aspects clés de l’aptitude humaine.

Que faut-il mesurer ?

Au niveau le plus élémentaire, il importe de déterminer si un système d’IA est capable des types d’aptitudes en lien avec la connaissance, l’apprentissage et la mémoire que l’on observe chez l’humain. Les sciences cognitives font la distinction entre la connaissance déclarative explicite, qui peut facilement être articulée et communiquée, et la connaissance procédurale implicite, qui constitue la base de différentes compétences. Les humains acquièrent des informations par le biais d’un éventail de sources, parmi lesquelles l’expérience directe, l’observation des autres et l’instruction dispensée par les livres et les vidéos. Cet apprentissage peut être passif ou mené activement à la poursuite d’un objectif. La généralisation de l’expérience peut s’effectuer par des processus plus inconscients et de nature plus statistique ou qui reflètent plus d’analyse symbolique et logique. Les humains possèdent des systèmes de mémoire variés, et la force et la disponibilité de leurs souvenirs changent au fil du temps. Ces nombreux aspects de la connaissance, de l’apprentissage et de la mémoire des humains ont des équivalents dans les systèmes d’IA.

Données disponibles

Les performances des différents systèmes d’IA sont actuellement reliées à l’échelle par l’analyse de leur conception pour comprendre quelles fonctions de la connaissance, de l’apprentissage et de la mémoire ils rendent possibles : quels types d’informations peuvent être stockées, extraites et apprises. Par ailleurs, les auteurs décrivent une série de mesures quantitatives qui pourraient être mises au point en complément des descriptions qualitatives. Ils s’intéressent à l’efficacité avec laquelle les souvenirs peuvent être stockés et extraits, à la capacité d’un système à recenser et à extraire des souvenirs potentiellement pertinents dans un contexte spécifique, aux types de connaissances qu’un système peut acquérir et à la précision avec laquelle il peut les généraliser, à la capacité d’un système à pratiquer l’apprentissage actif pour poursuivre ses objectifs, et à l’étendue des tâches qu’un système peut accomplir grâce à ses connaissances.

Niveau actuel de l’IA

Actuellement, l’IA se situe principalement au niveau 3, limitée par des modèles entraînés statistiquement, par la généralisation des statistiques et par sa dépendance envers de volumineux ensembles de données. Les LLM et les formes d’IA générative qui y sont liées sont typiques de ce niveau. Des efforts limités ont été fournis dans certains domaines pour mettre au point des agents capables d’acquérir leurs propres connaissances (niveau 4) et pour intégrer diverses formes de connaissance, d’apprentissage et de mémoire dans les architectures générales (niveau 5).

Défis à relever

Les principaux défis à relever dans le domaine de la connaissance, de l’apprentissage et de la mémoire résident dans l’équilibre entre les différents types de connaissances, par exemple pratiques (faire du vélo) et factuelles (mémoriser des dates), ainsi que dans l’intégration de connaissances qui fonctionnent de manière automatique avec des processus qui raisonnent de manière systématique. Un autre défi consiste à créer des systèmes qui apprennent vite et bien, et à s’assurer qu’ils sont capables d’adapter ce qu’ils ont appris à des scénarios entièrement nouveaux. Les systèmes d’IA actuels ont du mal à faire travailler ensemble les différents types de mémoire – mémoire immédiate, mémoire de stockage, expériences personnelles et faits généraux.

Niveau de performance	Description du niveau
5	À ce niveau, les systèmes intègrent divers types de connaissances, méthodes d’apprentissage et systèmes de mémoire, avec pour résultat une adaptation et un raisonnement solides en temps réel. Ils atteignent une flexibilité et une efficacité cognitives comparables à celles des humains tout en remédiant à des limites comme les hallucinations. Les progrès futurs pourraient surpasser la cognition humaine en surmontant les biais et les limites. À ce niveau, l’IA est capable d’accomplir des tâches qui nécessitent une flexibilité cognitive ouverte comme faire de la recherche scientifique, prendre des décisions en matière de politiques publiques ou plaider dans des affaires juridiques.
4	À ce niveau, les systèmes apprennent progressivement en interagissant avec le monde et les autres agents. Ils intègrent la conscience métacognitive pour se concentrer sur les lacunes en matière de connaissances et trouver un équilibre entre exploration et exploitation. Étendre ce paradigme à des domaines dynamiques ouverts reste un défi. À ce niveau, l’IA est capable d’accomplir des tâches qui impliquent de fonctionner dans des environnements inconnus, incertains ou changeants comme faire des tâches ménagères, aider des personnes âgées ou travailler sur un site industriel à ciel ouvert.
3	À ce niveau, les systèmes apprennent la sémantique de l’information en utilisant les représentations répandues pour en extraire le sens et le généraliser à des situations nouvelles. Les algorithmes avancés traitent de grandes masses de données pour améliorer leur compréhension du contexte. S’ils s’adaptent mieux que ceux des niveaux inférieurs, les systèmes de ce niveau ont besoin de ressources abondantes et manquent de capacités d’apprentissage en temps réel. À ce niveau, l’IA est capable d’accomplir des tâches qui impliquent de la génération de contenu comme écrire des histoires, créer des illustrations, résumer des informations ou faire de la programmation informatique.
2	Ce niveau passe à la recherche d’informations peu organisées, sans structure rigide. L’inférence statistique relie les termes de la recherche aux résultats pertinents, ce qui permet de traiter avec flexibilité la langue naturelle et d’autres formats non structurés. Lorsqu’elle est confrontée à des données incomplètes ou manquantes, cette approche a toutefois du mal à généraliser efficacement. À ce niveau, l’IA est capable d’accomplir des tâches qui impliquent la recherche d’informations comme faire des achats en ligne, prendre les dernières nouvelles, planifier un voyage ou consulter des avis clients.
1	Ce niveau de base consiste à stocker et extraire des informations structurées grâce à des méthodes de calcul précises. Les connaissances sont représentées dans des formats formels tels que des tableaux et des règles, des requêtes logiques permettant de retrouver avec exactitude les informations recherchées. Efficace pour les données structurées, cette approche peine avec les connaissances implicites ou mal définies et nécessite un important effort en matière d’ingénierie. À ce niveau, l’IA est capable d’accomplir des tâches qui impliquent la consignation précise de données, comme tenir une comptabilité financière, établir des statistiques ou gérer des plannings.

Échelle de la vision

Copier le lien de Échelle de la vision

Robert B. Fisher, Anthony G. Cohn et Christopher Lochhead

Composante clé de la perception humaine, la vision fournit des informations cruciales pour accomplir la plupart des tâches cognitives et physiques. La vision humaine peut interpréter des scènes visuelles dans toute leur complexité, dans un large éventail de conditions et d’environnements visuels. Elle peut être utilisée pour appréhender une vaste palette d’objets et de scènes, familiers ou non. L’échelle de la vision reflète l’ampleur du travail mené dans le domaine de la vision par ordinateur, qui a porté sur l’accomplissement de centaines de tâches visuelles spécifiques par des applications. Dans le même temps, elle montre que les actuels systèmes visuels d’IA, pas assez généralistes ni flexibles, restent en deçà d’une aptitude visuelle humaine complète. La vision par ordinateur couvre un large éventail de tâches allant de la reconnaissance d’objets à la compréhension de scènes dynamiques en passant par la navigation autonome.

Que faut-il mesurer ?

Pour caractériser les performances d’applications de vision par ordinateur spécifiques, il est important de décrire l’étendue et la variabilité des objets ou des scènes que celles-ci peuvent interpréter, de même que leur résistance aux variations de l’environnement visuel. L’échelle inclut aussi des dimensions secondaires comme la diversité des tâches accomplies ou la capacité des systèmes d’IA à tirer des enseignements des retours d’information dont ils bénéficient. Les auteurs ont défini 32 capacités visuelles qui sous-tendent les performances de différentes applications de vision par ordinateur. Il s’agit notamment de capacités en matière de détection, localisation, description des propriétés, analyse des mouvements, analyse géométrique, reconnaissance des formes et apprentissage visuel.

Données disponibles

Les auteurs ont recueilli deux types de données. Premièrement, un échantillon de 120 applications de vision par ordinateur a été sélectionné dans une base de données qui en comptait plus de 600 afin d’analyser leurs performances selon l’échelle. Les applications choisies l’ont été pour les bons résultats qu’elles ont obtenus lors de l’exécution des tâches concernées. Deuxièmement, le niveau de performance dans les 32 capacités visuelles a été estimé d’après trois sources : l’étude de la littérature scientifique par les auteurs, une enquête menée auprès de la communauté des chercheurs en informatique, et les réponses de ChatGPT 4o.

Niveau actuel de l’IA

Sur les 120 applications qui composaient l’échantillon, la moitié ont affiché des performances de niveau 2, mais bon nombre se sont placées aux niveaux 1 et 3. Le niveau 4 ne comptait que trois applications, et le niveau 5 n’en comptait aucune. L’évaluation des 32 capacités a donné des résultats similaires : un tiers est arrivé au niveau 2, un nombre important aux niveaux 1 et 3, et un petit nombre au niveau 4 ou au-dessous du niveau 1. Ces deux sources convergent pour établir que le niveau 3 est le plus élevé de l’échelle où les systèmes d’IA affichent des performances solides.

Défis à relever

Les principaux obstacles aux progrès de la vision par ordinateur sont la difficulté à faire face à des environnements réels variés et changeants et la capacité, actuellement limitée, à raisonner et à s’adapter en temps réel. Pour atteindre le niveau de performance le plus élevé, les systèmes de vision devront évoluer et apprendre en continu plutôt que de se reposer uniquement sur des modèles statiques reflétant l’état actuel de la technique.

Niveau de performance	Description du niveau
5	À ce niveau de pointe, les systèmes accomplissent des tâches avec le même niveau de performance que la vision humaine. Ils peuvent faire face à toutes les variations que les humains sont susceptibles de rencontrer : changements d’éclairage, de perspective, de forme, d’apparence, de position et de scène, attendus mais aussi nouveaux. Ils améliorent leurs performances en se fondant sur leur propre retour d’information et égalent les humains sur l’éventail complet des aptitudes visuelles, par exemple trouver des objets, délimiter des frontières, identifier des objets aux niveaux général et spécifique, estimer leur position pour les manipuler ou comprendre leurs interactions avec eux. Ces systèmes peuvent acquérir des connaissances en lien avec des propriétés, des objets et des comportements tout en s’adaptant aux changements qui surviennent dans leur environnement. Exemples de tâches caractéristiques : reconnaissance d’objets complexes, suivi dynamique ou compréhension de scènes en temps réel dans des environnements variés, comme pour les véhicules autonomes lorsqu’ils interagissent avec la circulation.
4	Les systèmes de niveau 4 couvrent un vaste éventail de types de données et de contenus, dont la microscopie, le système rouge-vert-bleu (RVB), les humains, les pièces mécaniques et les scènes naturelles. Ils gèrent d’importantes variations dans l’éclairage, la forme et l’apparence des objets ciblés et font des distinctions subtiles entre des catégories d’objets similaires. Ils sont capables d’améliorer leurs performances sur la base de retours d’information, que ceux-ci proviennent de leur auto-évaluation ou de sources externes. Ils peuvent accomplir un grand nombre de tâches différentes, même s’ils ne peuvent pas tout faire comme les humains. Leurs performances sont proches de celles des humains, et ils peuvent intégrer diverses tâches, de sorte que les résultats de l’un peuvent alimenter l’autre. Par exemple, un robot assistant cuisinier peut reconnaître les formes, localiser les objets, définir les points de manipulation, suivre les mouvements et évaluer la qualité des résultats. Exemples de tâches caractéristiques : manipulation et analyse complexes dans des environnements dynamiques, comme pour les robots qui exécutent diverses tâches en cuisine, surveillent des chaînes de montage ou effectuent des contrôles qualité compliqués dans l’industrie manufacturière.
3	À ce niveau, les systèmes couvrent plusieurs types de données et de contenus, dont la microscopie, le système RVB et les scènes naturelles. Ils peuvent gérer des variations dans l’éclairage et l’apparence des objets ciblés. Ils sont capables d’exécuter plus d’une sous-tâche et supportent des variations connues des données et des situations. Bien qu’offrant des performances similaires à celles des humains dans certains domaines, ces systèmes n’atteignent pas l’équivalence humaine. Par exemple, un système visuel haut de gamme pour véhicule autonome pourrait intégrer des informations sur les itinéraires, les routes, la météo et les mouvements du véhicule, tout en détectant les autres véhicules, les obstacles et les piétons et en suivant leurs déplacements. Cependant, ces systèmes peuvent avoir du mal à exécuter des tâches qui sortent de leur domaine de spécialité. Exemples de tâches caractéristiques : navigation d’un véhicule autonome, reconnaissance faciale ou cartographie de leur environnement par les systèmes robotiques.
2	Les systèmes de niveau 2 peuvent faire face à des variations d’éclairage et de position des capteurs par rapport à la scène, ainsi qu’à certaines variations du domaine observé. Ils sont plus flexibles que les systèmes de niveau 1, capables de gérer des variations dans la vitesse et la chronologie des actions ainsi que des changements d’objets au sein de la scène. Ils peuvent accomplir des tâches hautement spécialisées dans des environnements qui varient quelque peu, comme le maintien dans la voie et la détection d’obstacles pour les véhicules autonomes ou la détection et la reconnaissance faciales pour les systèmes de sécurité. Cependant, ils restent spécialisés et limités à des tâches spécifiques, et ils ont besoin que les conditions soient minutieusement réglées pour fonctionner de manière optimale. Exemples de tâches caractéristiques : détection faciale, évitement d’obstacles dans des environnements de conduite contrôlés ou inspections visuelles spécialisées dans l’industrie manufacturière.
1	Au niveau 1, les systèmes accomplissent des tâches dans des environnements très contrôlés qui varient peu. Ils sont capables d’exécuter une seule tâche. En général, ils l’accomplissent presque parfaitement, mais seulement dans une situation bien déterminée. La plupart des applications industrielles, comme l’inspection de produits manufacturés ou la reconnaissance de codes postaux, entrent dans cette catégorie. Même s’ils fonctionnent bien dans certains environnements et avec certains objets, ces systèmes se trouvent en difficulté au moindre de leurs changements. Manquant souvent de flexibilité, ils sont tributaires de conditions stables. Exemples de tâches caractéristiques : reconnaissance d’objets simples dans des environnements fixes, lecture de codes-barres ou contrôle qualité sur des sites industriels où les matériaux sont bien organisés.

Échelle de la manipulation

Copier le lien de Échelle de la manipulation

Elena R. Messina

La manipulation est l’une des principales aptitudes physiques humaines. Il s’agit de la capacité à interagir avec des objets dans son environnement, qui inclut les mouvements physiques en eux-mêmes, la perception (tactile, visuelle ou autre), nécessaire au retour d’information, et la cognition, pour prévoir et ajuster les mouvements. La manipulation robotique permet diverses tâches allant de simples opérations de prélèvement et de placement à des actions plus sophistiquées comme manipuler des objets déformables (p. ex. plier du linge) ou rassembler des objets dans des environnements encombrés.

Que faut-il mesurer ?

La difficulté d’une tâche de manipulation tient à plusieurs facteurs. La tâche en elle-même nécessite des actions élémentaires, qui impliquent différents mouvements comme la préhension, la fermeture ou les manipulations dans la main. Il y a aussi les caractéristiques de l’objet manipulé, l’environnement dans lequel s’accomplit la tâche et les contraintes d’exécution de celle-ci, par exemple les exigences de temps ou les distances avec d’autres objets. Tous ces éléments doivent être décrits si l’on veut pouvoir jauger la difficulté d’une tâche de manipulation donnée. Le niveau de performance d’un système robotique en manipulation est aussi déterminé par son niveau de généralisation dans ces différents facteurs (éventail de mouvements de base, caractéristiques de l’objet, environnement/conditions et contraintes d’exécution).

Données disponibles

Le nombre d’évaluations comparatives disponibles sur la manipulation physique est limité. Le nombre de celles qui proposent des classements comparant les performances de plusieurs systèmes au fil du temps est encore plus faible. Les auteurs ont recensé 11 tâches de référence correspondant aux niveaux inférieurs de l’échelle. Aucune évaluation comparative couvrant de manière exhaustive la manipulation de niveau 4 ou 5 n’a été trouvée.

Niveau actuel de l’IA

Les systèmes robotiques de manipulation les plus récents se situent au niveau 2. Par exemple, les bras robotiques utilisés dans l’industrie manufacturière sont compétents pour accomplir des tâches spécifiques et bien définies dans des environnements contrôlés, mais éprouvent des difficultés face à des situations plus dynamiques et imprévisibles. En effet, si ces robots excellent dans de nombreuses opérations de prélèvement et de placement, ils ont plus de mal à manipuler des objets fragiles ou de forme irrégulière dans des espaces non structurés, ou à manipuler des objets variés ou aux emplacements changeants.

Défis à relever

Les principaux obstacles aux progrès des robots en manipulation résident notamment dans leurs limites en matière de dextérité et d’adaptabilité, en particulier lorsqu’ils sont confrontés à un vaste éventail d’objets ou à des conditions environnementales imprévisibles. En outre, les systèmes rencontrent souvent des difficultés à prendre des décisions et à apprendre en temps réel, ce qui limite leur capacité à s’adapter à la volée à des situations nouvelles. Enfin, les robots actuels manquent d’efficacité pour accomplir des tâches complexes nécessitant une grande dextérité et un raisonnement avancé.

Niveau de performance	Description du niveau
5	À ce niveau de pointe, les robots égalent les humains dans les tâches de manipulation, se montrant opérationnels dans n’importe quel environnement – même dans des espaces extrêmement encombrés. Ils manipulent des objets aux formes, tailles, matériaux et dynamiques variés avec une adaptabilité exceptionnelle, y compris en présence de surfaces réfléchissantes, de textures glissantes et de matériaux flexibles. Ils sont capables de repositionner rapidement des objets dans la main, de les placer dans des orientations complexes et de réagir à des changements dynamiques. Ils peuvent exécuter des tâches avec une précision, une efficacité, une robustesse et une adaptabilité équivalentes à celles d’un humain qualifié, dans le respect de contraintes temporelles strictes. Ils collaborent parfaitement avec les humains, comprenant leurs propres limites et refusant les tâches qui dépassent leurs capacités. Exemples de tâches caractéristiques : aider une personne à s’habiller ou effectuer des opérations de recherche et de sauvetage.
4	Les robots fonctionnent dans des environnements fortement encombrés et avec des occlusions, distinguant rapidement les objets ciblés des objets non ciblés. Ils peuvent manipuler des objets rigides et non rigides, y compris ceux comportant des pièces mobiles. Ils sont capables d’exécuter de manière plus précise des tâches qui nécessitent des orientations ou des placements spécifiques, évoluant dans des espaces restreints ou des endroits obscurs avec plus de précision. Les opérations basées sur la force qui exigent une adaptation modérée sont possibles. Ces robots peuvent étendre leur action à des objets aux propriétés variables et à des conditions environnementales changeantes, mais ont parfois besoin d’une confirmation humaine. Ils peuvent accomplir des tâches en respectant des contraintes temporelles strictes, mais n’atteignent pas l’efficacité d’un humain. Exemples de tâches caractéristiques : vider un lave-vaisselle, manipuler des surfaces sur la base de la force ou rassembler des objets dans des environnements encombrés ou dynamiques.
3	Les robots peuvent s’adapter à des environnements modérément encombrés, sélectionnant et manipulant les objets ciblés au milieu des distractions. Ils gèrent un vaste éventail de géométries et de matériaux qui leur posaient problème au niveau précédent, comme les surfaces réfléchissantes ou à faible friction. S’ils sont capables de réorienter des objets ou de les placer dans des positions modérément difficiles, les repositionner rapidement dans la main reste probablement un obstacle. Ils peuvent exécuter des opérations basées sur la force avec des instructions mais sans adaptation majeure. Ils sont capables de fonctionner en respectant des contraintes temporelles modérées, mais probablement pas de rester efficaces avec des délais serrés, sauf en conditions contrôlées. Exemples de tâches caractéristiques : réorienter des objets irréguliers, dresser la table avant un repas ou manipuler des matériaux délicats nécessitant de maîtriser sa force.
2	Les robots peuvent fonctionner dans des environnements peu ou modérément encombrés. Ils peuvent s’adapter à des objets placés aléatoirement dans une zone précise et à une grande variété de formes ainsi qu’à des matériaux pliables – ceux qui sont élastiques ou glissants continuant de leur poser des difficultés. Ils peuvent contourner de petits obstacles, mais les manipulations compliquées restent problématiques, par exemple faire pivoter un objet selon un angle précis ou le glisser dans un espace étroit. S’ils sont capables d’accomplir des tâches en conditions contrôlées, ils ont du mal à réagir rapidement ou à faire face à des changements inattendus. Exemples de tâches caractéristiques : ramasser les éléments d’un jeu de construction sur une table et les placer dans une boîte de rangement ou manipuler du matériel dans un environnement contrôlé en usine.
1	À ce niveau, les robots sont limités à de simples opérations de prélèvement et de placement dans des environnements bien organisés. Ils manipulent des objets rigides aux formes basiques qui sont faciles à saisir, utilisant pour cela des matériaux uniformes qui se détectent et s’agrippent assez aisément. Ils sont le plus efficaces dans des espaces sans obstacles extérieurs, en suivant des parcours prédéfinis, et ont une adaptabilité limitée. Un changement par rapport à l’environnement attendu entraîne généralement l’échec de l’opération. Ces robots fonctionnent avec de larges marges d’erreur et ne nécessitent pas de positionnement précis, car ils se concentrent sur les mouvements grossiers. Exemple de tâche caractéristique : dans un entrepôt, aller chercher des boîtes de céréales dans des emplacements préalablement appris et les insérer dans des cases.

Échelle de l’intelligence robotique

Copier le lien de Échelle de l’intelligence robotique

Cherie Ho, Rebecca Martin, Jonathan Francis et Jean Oh

Les humains peuvent évoluer dans leurs environnements et accomplir un vaste éventail de tâches en toute autonomie, mus par une série d’objectifs supérieurs. Cette aptitude à agir en tant qu’agent autonome dans un environnement naturel implique la coordination de la palette complète des aptitudes humaines. Cela inclut la perception et le mouvement physique, mais aussi le langage, les interactions sociales et diverses formes de résolution de problèmes. L’intelligence robotique intégrée tente de simuler ce niveau d’autonomie humaine en couvrant un éventail de tâches qui nécessitent une parfaite coordination des systèmes sensoriel, moteur et cognitif, comme la navigation autonome, l’interaction entre humain et robot ou la prise de décisions en temps réel.

Que faut-il mesurer ?

L’échelle de l’intelligence robotique comprend six dimensions. Quatre d’entre elles concernent la tâche elle-même : la complexité de la tâche, le niveau d’abstraction dans la définition de la tâche – ce qui influence le niveau de résolution de problèmes nécessaire pour savoir quoi faire –, la complexité des interactions sociales requises pour accomplir la tâche et les questions éthiques – qui fixent implicitement un ensemble de contraintes quant à la manière dont la tâche peut être exécutée. Les deux autres dimensions ont à voir avec le contexte de la tâche : la complexité de l’environnement, ainsi que le niveau d’incertitude de l’environnement et la manière dont l’agent interagit avec l’environnement.

Données disponibles

Il existe peu d’évaluations comparatives permettant d’estimer le niveau d’intelligence intégrée dans les systèmes d’IA et de robotique actuels. Cependant, ce secteur accueille plusieurs défis et concours dans différents domaines d’application comme les procédés de fabrication complexes, l’exploration spatiale ou les services à la personne. Les données ont été collectées en combinant une étude de la littérature scientifique et plusieurs ateliers et entretiens organisés pour parvenir à un consensus entre les chercheurs qui travaillent sur la question.

Niveau actuel de l’IA

Les systèmes les plus récents, comme les robots de livraison autonomes ou les systèmes d’automatisation industrielle, affichent globalement des performances de niveau 2 sur l’échelle. Ils fonctionnent bien dans des environnements structurés avec des tâches prédéfinies. Cependant, ils ont du mal avec les scénarios plus complexes et imprévisibles faisant appel à la prise de décisions pour s’adapter, à la créativité et à l’intelligence sociale. Par exemple, alors que les robots peuvent évoluer dans des environnements préalablement cartographiés, ils rencontrent des difficultés quand on leur demande d’interagir avec des humains ou de s’adapter à des changements imprévus.

Défis à relever

Les principaux défis à relever dans le domaine de l’intelligence robotique tiennent à ses limites en matière d’adaptabilité, de résolution de problèmes et de prise de décisions éthiques. Alors que les robots peuvent être programmés pour accomplir certaines tâches, leur capacité à s’adapter à des conditions dynamiques, à collaborer avec les humains et à prendre des décisions éthiques en temps réel reste sous-développée. En outre, l’incertitude qui caractérise les environnements réels entraîne souvent des performances sous-optimales, car les robots ont du mal à prendre des décisions en présence d’informations incomplètes ou contradictoires.

Conséquences

Éthiquement, les systèmes robotiques intégrés doivent répondre à des inquiétudes liées à la sécurité, à l’équité et à l’obligation de rendre compte, en particulier dans les tâches impliquant des interactions humaines ou des applications cruciales comme les soins de santé ou les véhicules autonomes. Les décideurs doivent en premier lieu définir des normes et réglementations garantissant transparence, équité et sécurité dans la conception et le déploiement des robots. Investir dans la recherche axée sur une intelligence adaptative, éthique et socialement responsable sera essentiel pour faire progresser ces technologies.

Niveau de performance	Description du niveau
5	À ce niveau de pointe, les robots accomplissent de multiples tâches complexes dans des environnements non structurés, en faisant preuve d’une grande créativité dans leur fixation d’objectifs. Ils sont capables d’affiner des spécifications de tâche mal définies. Ces robots peuvent s’adapter à des conditions dynamiques, apprendre de leurs expériences et généraliser leurs connaissances à un vaste éventail de tâches et d’environnements. Ils font preuve de capacités de raisonnement avancées, de bon sens et d’une grande intelligence sociale. Les robots de ce niveau comprennent leurs limites et peuvent prendre des décisions éthiques, par exemple refuser d’exécuter des tâches contraires à la loi ou à la morale. Exemples : robots d’assistance domestique pour les personnes en situation de handicap, robots chargés de prendre des décisions éthiques ou véhicules autonomes très performants dans des environnements variés et dynamiques.
4	Les robots de ce niveau exécutent des tâches multiples avec des degrés de complexité variables. Ils peuvent s’adapter à des conditions dynamiques et ajuster leur comportement en fonction d’environnements changeants. Ils comprennent leurs limites et utilisent les retours d’information pour s’améliorer. Les tâches de cette catégorie impliquent des objectifs complexes à long terme avec des dépendances contextuelles. Si les robots sont capables de prendre des décisions dans des environnements incertains, les solutions qu’ils proposent ne sont pas forcément aussi efficaces ni efficientes que celles des humains. Exemples : robots de cuisine sélectionnant les ingrédients en fonction de leur disponibilité, fauteuils roulants autonomes qui contournent les obstacles ou systèmes de pilotage automatique activés à proximité des aéroports.
3	Les robots de niveau 3 peuvent exécuter des tâches à moyen terme composées de plusieurs étapes et nécessitant un certain niveau de flexibilité. Ils peuvent fonctionner dans des environnements qui varient modérément et accomplir des tâches qui impliquent plusieurs sous-tâches définies de manière souple. Ces robots sont capables de collaborer avec les humains, de s’adapter à des niveaux modérés d’incertitude et de faire face à des changements dynamiques (éclairage, météo, types d’objets inconnus). Ils peuvent accomplir des tâches aux solutions multiples, mais ont du mal avec les environnements plus imprévisibles ou dynamiques. Exemples : robots d’hôpital effectuant des tâches de transport et de nettoyage, robots d’assemblage de meubles ou robots cinématographes filmant de manière autonome selon des préférences préalablement apprises.
2	Les robots de cette catégorie exécutent des tâches prédéfinies dans des environnements semi-structurés qui varient quelque peu. Ils peuvent faire face à une incertitude faible à modérée, comme des changements dans la disposition des objets ou l’aménagement de l’environnement. Les tâches sont généralement assorties de critères de réussite bien définis et les robots interagissent très peu avec les humains. Ils sont capables d’exécuter des tâches simples et multifonctionnelles, mais sont limités par leur incapacité à faire face à des changements plus complexes ou imprévus. Exemples : robots assurant le transport médical, robots manutentionnaires en usine ou robots utilisés dans l’agriculture pour la cueillette des fruits.
1	Les robots de niveau 1 accomplissent des tâches simples et répétitives dans des environnements très structurés et contrôlés. Ils fonctionnent dans des contextes statiques et déterministes, dont tous les paramètres sont connus et prévisibles. Ces robots suivent des instructions préalablement spécifiées et, comme ils sont dépourvus de la capacité à prendre des décisions, ils ne peuvent pas s’adapter à des circonstances imprévues. Ils n’interagissent pas avec les humains et ne peuvent généralement pas faire face au moindre changement de leur environnement. Exemples : robots d’assemblage basiques, aspirateurs robots ou systèmes de tri d’objets dans des opérations logistiques.

Références

[1] Boden, M. (2003), The Creative Mind: Myths and Mechanisms, Routledge, Milton Park, Abingdon-on-Thames.

[6] Liang, P. et al. (2022), « Holistic evaluation of language models », arXiv, vol. 2211.09110, https://arxiv.org/abs/2211.09110.

[4] Papers with Code (s.d.), Evaluating Information essentiality on BIG-bench, (base de données), https://paperswithcode.com/sota/evaluating-information-essentiality-on-big (consulté le 15 mai 2025).

[2] Rhodes, M. (1961), « An analysis of creativity », The Phi Delta Kappan, vol. 42/7, pp. 305-310, https://www.jstor.org/stable/i20342591.

[5] Schuster, T., A. Fisch et R. Barzilay (2021), « Get your vitamin C! Robust fact verification with contrastive evidence », arXiv, vol. 2103.08541, https://doi.org/10.48550/arXiv.2103.08541.

[3] Srivastava, A. et al. (2022), « Beyond the imitation game: Quantifying and extrapolating the capabilities of language models », arXiv, vol. 2206.04615, https://doi.org/10.48550/arXiv.2206.04615.

Thèmes clés

Agriculture et pêcheries

Changement climatique

Développement

Développement régional, urbain et rural

Échanges

Économie

Éducation et compétences

Emploi

Environnement

Finances et investissement

Fiscalité

Gouvernance

Industrie, entreprises et entrepreneuriat

Numérique

Santé

Science, technologie et innovation

Société

Énergie

Énergie nucléaire

Transport

Thèmes clés

Agriculture et pêcheries

Changement climatique

Développement

Développement régional, urbain et rural

Échanges

Économie

Éducation et compétences

Emploi

Environnement

Finances et investissement

Fiscalité

Gouvernance

Industrie, entreprises et entrepreneuriat

Numérique

Santé

Science, technologie et innovation

Société

Énergie

Énergie nucléaire

Transport

Pays A - C

Pays D - I

Pays J - M

Pays N - R

Pays S - T

Pays U - Z

Engagement régional et global

Pays

Pays A - C

Pays D - I

Pays J - M

Pays N - R

Pays S - T

Pays U - Z

Engagement régional et global

Publications

Publications

Gros plan

Données

Données

Gros plan

Actualités & événements

Actualités et événements

Gros plan

À propos

À propos

Engagement

Rejoignez-nous

Thèmes clés

Agriculture et pêcheries

Changement climatique

Développement

Développement régional, urbain et rural

Échanges

Économie

Éducation et compétences

Emploi

Environnement