L’article de Turing de 1950 ne proposait ni un tour de passe-passe, ni un concours de tromperie, ni un jeu d’imitation à court terme. Il proposait un tournant méthodologique pour une future science de l’esprit : cesser de demander ce qu’est la pensée et chercher plutôt à expliquer comment les penseurs peuvent faire ce qu’ils peuvent faire. Le remplacement de la question vague « Les machines peuvent-elles penser ? » par un critère opérationnel ne visait pas à banaliser la cognition, mais à l’ancrer dans la capacité de performance empirique. L’enjeu n’était pas de duper des juges, mais de rétro-ingénier la totalité des capacités cognitives humaines de manière à les rendre reproductibles par une explication causale dont nous comprenons le fonctionnement. La question centrale n’est pas de savoir si une machine peut passer pour un penseur, mais comment et pourquoi les humains pensants peuvent faire tout ce qu’ils peuvent faire.
La terminologie malheureuse de « jeu » et d’« imitation » a entretenu une confusion durable. L’intuition méthodologique de Turing est que la cognition est invisible, alors que la performance ne l’est pas. Nous ne pouvons pas observer la pensée directement, ni chez autrui ni chez les machines, mais nous pouvons observer ce que les penseurs ont la capacité de faire. Le test n’a donc jamais porté sur la supercherie, mais sur l’indiscernabilité en capacité de faire (dites « l’indiscernabilité Turingienne »). L’interrogateur n’est pas un naïf, mais n’importe quel penseur humain neurotypique. Le véritable critère n’est pas que des personnes soient trompées, mais qu’il n’existe aucun moyen de distinguer le candidat d’un être humain normal à partir de sa performance observable. S’il y a une différence discernable, le candidat échoue. Sinon, alors la rétroingénieurie a réussi et le mécanisme interne qui a produit le succès constitue une potentielle explication causale de la capacité cognitive humaine.
Cela soulève immédiatement la question de l’étendue et de la durée du Test de Turing. La remarque occasionnelle de Turing sur cinq minutes et des pourcentages a été interprétée de façon absurde. Il s’agit d’une prédiction démographique, non d’un critère scientifique. La science cognitive n’est pas l’art de tromper certaines personnes pendant un certain temps. Un test sérieux de la cognition rétro-ingéniérée doit être ouvert et, en principe, valable sur toute une vie. Le candidat doit pouvoir continuer à faire ce que les humains peuvent faire, à travers les domaines et les contextes, sans s’épuiser dans des astuces pré-programmées ou des bases finies de cas. Un système qui s’effondre lorsque la conversation s’aventure en terrain imprévu, ou lorsqu’il est soumis à des sondages persistants, ne révèle pas une capacité cognitive générale. Il révèle un artefact de performance borné.
Tout aussi importante est la restriction au canal verbal. Turing a introduit l’interaction dactylographiée comme un moyen de mettre entre parenthèses l’apparence et les indices physiques non pertinents, non comme une thèse selon laquelle la cognition serait épuisée par le langage. L’exclusion de la voix, du geste et de l’incarnation visait à neutraliser des indices superficiels, non à nier que les humains sont des agents sensorimoteurs dans un monde physique. Interpréter le test comme intrinsèquement verbal revient à confondre une commodité méthodologique avec un engagement théorique. La capacité cognitive humaine n’est pas un simple module de clavardage. Elle est ancrée dans la perception, l’action et l’interaction causale avec le monde. Un système qui ne peut qu’échanger des symboles, sans pouvoir voir, se déplacer, manipuler et être affecté par son environnement, manque une grande partie de ce que les humains peuvent faire.
C’est pourquoi la distinction entre une indiscernabilité purement verbale et une indiscernabilité robotique complète est cruciale. Un système qui réussirait une vie entière d’échanges par courriel serait déjà une prouesse d’ingénierie remarquable, mais il laisserait ouverte la question de savoir si ce même système pourrait, par exemple, sortir, regarder le ciel et dire si la lune est visible, apprendre à utiliser des outils inconnus, se déplacer dans un environnement encombré, ou acquérir de nouvelles catégories ancrées dans les choses qu’il y a dans le monde auxquelles réfèrent leurs noms, par essais et erreurs. Ce ne sont pas des options accessoires. Elles font partie du répertoire ordinaire de la performance cognitive humaine. Traiter le langage comme un module autonome, c’est risquer de confondre une interface puissante avec un esprit complet.
Cela conduit à la question de la computation. Le travail de Turing sur la calculabilité, et la thèse de Church-Turing, portent sur ce qui peut être calculé par manipulation de symboles selon des règles. Ils n’affirment pas que tous les processus causaux sont computationnels, ni que la cognition n’est rien d’autre que de la computation. Le test lui-même est agnostique quant aux mécanismes internes. Il n’exige pas que le candidat réussi soit un ordinateur numérique. Ce qu’il exige, c’est que nous l’ayons construit et que nous comprenions, au moins en principe, comment il fonctionne. L’objectif est l’explication, non la simple duplication. Cloner un être humain, même si cela produisait un performer indiscernable, ne constituerait pas une explication de la cognition, car nous n’aurions rien rétro-ingéniéré. Nous aurions simplement reproduit ce que nous cherchions à expliquer.
Turing semble parfois glisser vers une restriction aux ordinateurs numériques, en partie en raison de l’universalité de la computation. Mais l’universalité de la simulation n’est pas l’universalité de l’instanciation physique. Un avion simulé ne vole pas, et un robot simulé n’agit pas dans le monde. L’équivalence formelle ne confère pas de capacité causale dans le monde réel. Un agent sensorimoteur virtuel dans un environnement virtuel peut être utile pour la modélisation et les tests, mais il ne satisfait pas en lui-même à un critère de performance dans le monde réel. Si la cognition dépend en partie d’un couplage sensorimoteur réel avec l’environnement, alors un système purement computationnel, aussi sophistiqué soit-il, peut ne pas satisfaire au critère complet de performance.
Il ne s’agit pas d’une thèse métaphysique sur l’incarnation pour elle-même. Il s’agit d’une thèse empirique sur ce que les humains peuvent faire. La compétence verbale humaine est plausiblement ancrée dans l’expérience non verbale (sensori-motrice, robotique. Une grande partie de ce que nous pouvons dire présuppose ce que nous pouvons voir, toucher, reconnaitre, identifier, dénommer, décrire, manipuler et apprendre par interaction. Un système qui n’a jamais rencontré le monde autrement que par le texte est contraint de s’appuyer sur des descriptions verbales indirectes produites par d’autres. Ce n’est pas équivalent à un ancrage sensorimoteur propre. La différence est décisive si l’objectif n’est pas de mimer un comportement de surface dans des contextes restreints, mais de correspondre à la capacité humaine générique.
Le succès contemporain des grands modèles de langage rend ce point particulièrement saillant. Ces systèmes présentent une fluidité verbale et une étendue de connaissances apparentes extraordinaires. Ils peuvent soutenir de longs échanges, s’adapter à de nombreux sujets et paraître souvent étonnamment humains dans des interactions textuelles. Mais ils y parviennent en s’entraînant sur des corpus massifs de langage produit par des humains. Ils héritent, en effet, d’un immense réservoir de descriptions verbales du monde de seconde main . Ce n’est pas un ancrage au sens pertinent pour la rétro-ingénierie de la cognition. C’est une structure empruntée. Le système n’a pas appris ses catégories en agissant dans le monde et en recevant un retour correctif. Il a appris des régularités statistiques dans le texte qui reflètent la manière dont des humains ancrés parlent du monde.
C’est ce qui rend le phénomène de la « grosse gorgée » à la fois fascinant et méthodologiquement trompeur. Il peut produire des performances verbales impressionnantes sans que le système lui-même ait l’histoire causale qui, chez les humains, sous-tend normalement cette performance. Il devient alors plus difficile de déterminer, à partir du seul comportement verbal, si le système possède une capacité générale ou s’il exploite un proxy massif mais en fin de compte fini de l’expérience. Une sonde de type Turing purement verbale devient donc de plus en plus vulnérable à des facteurs de confusion. Le système peut réussir de nombreux tests conversationnels non pas parce qu’il peut faire ce que les humains peuvent faire, mais parce qu’il a absorbé un enregistrement massif de ce que les humains ont dit sur ce qu’ils peuvent faire.
Cela ne montre pas que Turing avait tort avec son test. Cela montre que le canal verbal n’est plus un test de résistance suffisant. Si le test doit conserver son rôle comme critère de cognition rétro-ingéniérée, il doit être compris dans son sens complet, non abrégé. Le véritable étalon n’est pas une interface de clavardage, mais un système qui peut vivre dans le monde comme nous, acquérir de nouvelles catégories, apprendre des conséquences, corriger ses erreurs et intégrer perception, action et langage dans une seule capacité de performance cohérente.
La discussion par Turing des objections reste ici instructive. L’objection de Lady Lovelace, selon laquelle les machines ne peuvent faire que ce que nous leur disons de faire, repose sur une conception erronée des règles et de la nouveauté. Des systèmes gouvernés par des règles peuvent néanmoins produire des résultats imprévisibles en pratique, et le comportement humain n’est pas moins régi causalement par des régularités. La question profonde n’est pas de savoir si les machines peuvent nous surprendre, mais si nous pouvons expliquer comment un système en vient à posséder les capacités flexibles et ouvertes qui caractérisent les humains. La surprise est bon marché ; la compétence générique ne l’est pas.
De même, les arguments fondés sur Gödel concernant l’intuition mathématique manquent la cible s’ils sont interprétés comme montrant que la pensée humaine transcende mécaniquement toute explication causale. Savoir qu’une proposition est vraie n’est pas la même chose qu’avoir une preuve formelle, et aucun de ces faits n’établit, à lui seul, que la cognition ne puisse être mécanisée au sens de la performance pertinent pour le test. Le test de Turing ne tranche pas les questions métaphysiques sur l’esprit ou la conscience. Il fournit un critère d’adéquation explicative en science cognitive.
Cela conduit à la distinction cruciale entre faire et ressentir. Même un système qui satisferait pleinement au critère de performance ne serait pas, pour autant, connu comme ressentant. C’est le « problème des autres esprits », qui s’applique aussi bien aux humains qu’aux machines. Le test n’est pas une solution au problème de la conscience. C’est une solution au problème méthodologique de l’évaluation de l’explication de la capacité cognitive: le succès de la rétro-ingénierie. Un candidat réussi nous donnerait, au mieux, une explication de la manière dont le faire est généré. La question de savoir s’il y a du ressenti, et comment le ressenti surgit, resterait un problème distinct, et peut-être insoluble.
Dans cette perspective, les affirmations selon lesquelles les LLM actuels auraient « réussi le test de Turing » confondent une indiscernabilité locale, à court terme et textuelle, avec une capacité cognitive générique, incarnée et valable sur toute une vie. Elles confondent également la tromperie démographique avec l’explication scientifique. Un système qui peut induire en erreur une fraction de juges pendant quelques minutes n’a pas, pour autant, été montré comme possédant une cognition de niveau humain. Il a montré que nos intuitions verbales (et nos capacités neurones-mirroir) sont faillibles et que la fluidité de surface est plus facile à obtenir qu’une compétence profonde et ancrée.
La contribution durable de Turing n’a pas été de nous donner un jeu de société, mais de fixer un programme empirique de recherche. La science cognitive, dans cette optique, consiste à rétro-ingénier la capacité de faire ce que les penseurs peuvent faire. Le test est le critère d’aboutissement de cette entreprise, non un raccourci pour la contourner. Si l’on prend cela au sérieux, le véritable défi n’est pas de construire de meilleurs bavards, mais de construire des systèmes capables d’agir, d’apprendre et de vivre dans le monde d’une manière indiscernable, en principe et en pratique, de ce que les humains peuvent faire au cours d’une vie. Ce n’est qu’alors qu’il serait raisonnable de dire que le projet de rétro-ingénierie a réellement abouti.
Turing, A. M. (1950/1990). Machines informatiques et intelligence. Mind, 49, 433-460.
Harnad, S. (2008) The Annotation Game: On Turing (1950) on Computing,Machinery and Intelligence. In: Epstein, Robert & Peters, Grace (Eds.) Parsing the Turing Test: Philosophical and Methodological Issues in the Quest for the Thinking Computer. Springer
