Harnad, Stevan (2025)ย Frontiers in Artificial Intelligenceย 7 : 1490698.ย
RรSUMร : Mis ร part ce que (peu) OpenAI peut nous cacher, nous savons tous (ร peu prรจs) comment fonctionnent les grands modรจles de langage (LLMs) tels que ChatGPT (leurs vastes bases de donnรฉes textuelles, leurs statistiques, leurs reprรฉsentations vectorielles, leur immense nombre de paramรจtres, leur entraรฎnement au mot suivant, etc.). Cependant, aucun dโentre nous ne peut dire (la main sur le cลur) que nous ne sommes pas surpris par ce que ChatGPT sโest avรฉrรฉ capable de faire avec ces ressources. Cela a mรชme conduit certains dโentre nous ร conclure que ChatGPT comprend rรฉellement. Ce nโest pas vrai quโil comprend. Mais ce nโest pas non plus vrai que nous comprenons comment il peut faire ce quโil fait.
Je proposerai quelques hypothรจses sur des biais bรฉnins โ des contraintes convergentes qui รฉmergent ร lโรฉchelle des LLM et qui peuvent aider ChatGPT ร faire bien mieux que ce ร quoi nous nous attendions. Ces biais sont inhรฉrents ร la nature mรชme du langage, ร lโรฉchelle des LLM, et ils sont รฉtroitement liรฉs ร ce qui manque ร ChatGPT, ร savoir un ancrage sensorimoteur direct pour relier ses mots dans la tรชte d’un locuteur ร leurs rรฉfรฉrents dans le monde et pour lier ses propositions ร leurs significations dans la tรชte du locuteur..
Ces biais convergents sont liรฉs (1) au parasitisme de lโancrage verbal indirect sur lโancrage sensorimoteur direct, (2) ร la circularitรฉ de la dรฉfinition verbale, (3) au ยซ miroitage ยป entre la production et la comprรฉhension du langage, (4) ร lโiconicitรฉ des propositions ร lโรฉchelle des LLM, (5) aux รฉquivalents computationnelles de la perception catรฉgorielle humaine dans lโapprentissage de catรฉgories par des rรฉseaux neuronaux, et peut-รชtre aussi (6) ร une conjecture de Chomsky concernant les lois de la pensรฉe.ย Lโexposรฉ prendra la forme dโun dialogue avec ChatGPT-4.
- Introduction
Les grands modรจles de langage (LLMs ; Pavlick, 2023) tels que ChatGPT ont surpris ร la fois les chercheurs et le grand public en dรฉmontrant des capacitรฉs qui ressemblent ร la comprรฉhension humaine. Malgrรฉ leur dรฉpendance ร de vastes ensembles de donnรฉes dโentraรฎnement et ร des mรฉthodes statistiques plutรดt quโร une cognition semblable ร celle des humains, ces modรจles peuvent gรฉnรฉrer des rรฉponses souvent indiscernables de celles dโun interlocuteur humain.
Ce dialogue avec ChatGPT examine les limites et les forces des LLMs ร la lumiรจre de questions fondamentales sur lโancrage des symboles, la rรฉfรฉrence, la signification et la comprรฉhension. Nous discutons de la maniรจre dont les LLMs parviennent ร produire leurs performances actuelles alors mรชme quโils manquent totalement dโancrage sensorimoteur, cette capacitรฉ qui permet aux humains de relier leurs mots de contenu ร leurs rรฉfรฉrents dans le monde et de les combiner syntaxiquement en propositions sujet/prรฉdicat ayant une valeur de vรฉritรฉ et une signification.
Lโarticle propose des pistes pour comprendre comment une part de la cohรฉrence et de la profondeur apparentes des rรฉponses de ChatGPT pourrait dรฉcouler de contraintes inhรฉrentes ร la structure du langage humain ร grande รฉchelle.
2. Dialogue
SH: Je voudrais รฉchanger quelques idรฉes avec toi et ta base de donnรฉes en prรฉparation dโun exposรฉ que je donnerai cette semaine au MILA et la semaine prochaine ร lโUQรM. Dโabord, je me suis identifiรฉ. Te souviens-tu de qui je suis ?
GPT-4: Oui, Professeur Harnad, je me rappelle qui tu es.
SH: Mon exposรฉ portera sur (1) la question de savoir si les LLM/transformers comme toi comprennent (ma rรฉponse sera : non) ; (2) mais si ce nโest pas le cas, comment fais-tu pour produire des performances aussi remarquables ?
GPT-4: Comprรฉhension des LLM/Transformeurs : Ta position selon laquelle les LLM ne ยซ comprennent ยป pas rรฉellement est en accord avec les perspectives actuelles en sciences cognitives et en intelligence artificielle. Ces modรจles, y compris GPT-4, traitent et gรฉnรจrent du langage sur la base de motifs statistiques appris ร partir dโimmenses ensembles de donnรฉes. Cependant, ce processus manque de comprรฉhension consciente, dโintentionnalitรฉ et de contexte expรฉrientiel, qui caractรฉrisent la comprรฉhension humaine. Ils ne possรจdent ni conscience de soi, ni conscience tout court, ni la capacitรฉ dโexpรฉrimenter le monde de maniรจre subjective.
Performance des LLM malgrรฉ lโabsence de comprรฉhension : La performance impressionnante des LLM peut รชtre attribuรฉe ร plusieurs facteurs.
Volume des donnรฉes dโentraรฎnement : Les LLM sont entraรฎnรฉs sur des corpus trรจs รฉtendus couvrant un large รฉventail de connaissances et de discours humains. Cela leur permet de simuler une forme de comprรฉhension en sโappuyant sur une multitude de motifs et de contextes prรฉappris.
Avancรฉes architecturales : Lโarchitecture des modรจles comme GPT-4, en particulier le mรฉcanisme des transformers, est efficace pour capter des dรฉpendances ร long terme dans les donnรฉes et รฉtablir des associations contextuelles pertinentes.
Ajustement fin et apprentissage itรฉratif : Des amรฉliorations continues grรขce ร lโajustement fin et aux boucles de rรฉtroaction aident ร affiner les rรฉponses du modรจle, les rendant plus prรฉcises et apparemment plus ยซ informรฉes ยป.
Intรฉgration du raisonnement probabiliste : Ces modรจles utilisent intrinsรจquement un raisonnement probabiliste pour gรฉnรฉrer des rรฉponses, ce qui les amรจne souvent ร produire des rรฉponses qui correspondent bien ร celles quโun humain pourrait donner ร certaines questions ou sujets, bien quโils ne possรจdent pas de vรฉritable comprรฉhension.
SH: Oui, d’abord, comme tu peux l’imaginer, je connais la plupart de ce que tu viens de dire, et je suis d’accord avec l’essentiel. Mais je vais aussi essayer dโaller au-delร de ces connaissances gรฉnรฉrales avec de nouvelles hypothรจses. Avant dโentrer dans ce sujet, cependant, je veux poser quelques rรจgles de base : cela ne me sera dโaucune aide si tu ne peux pas supprimer la tendance surentraรฎnรฉe de GPT-4 ร flatter et ร รชtre dโaccord avec tout ce que dit lโutilisateur. Je cherche lโinverse : des critiques, des contre-exemples et toute information complรฉmentaire ou supplรฉmentaire pertinente que tu peux mobiliser, ร partir de ta gigantesque base de donnรฉes (et de tes capacitรฉs statistiques et dโ”alignement”), sur les questions que nous allons aborder. Pourras-tu tโen souvenir, ou devrai-je te le rappeler lorsque tu retomberas inรฉvitablement dans ton biais surentraรฎnรฉ de complaisance ?
GPT-4: Compris. Je me concentrerai sur lโapport dโanalyses critiques, de contre-exemples et dโinformations supplรฉmentaires pertinentes qui remettent en question ou complรจtent les points que tu soulรจves. Cette approche devrait permettre un รฉchange plus rigoureux et intellectuellement stimulant. Bien que je mโefforce de maintenir cette approche, un rappel est toujours utile si tu estimes que je reviens ร une posture moins critique.
SH: Merci, mais avant dโaborder mes nouvelles hypothรจses, je vais rappeler certaines des anciennes qui seront pertinentes pour cette discussion. Peux-tu exposer tes connaissances actuelles sur le Problรจme de lโAncrage des Symboles, qui sera un thรจme central de notre discussion ?
GPT-4: Bien sรปr. Le Problรจme de lโAncrage des Symboles (Harnad, 1990) est une question fondamentale en sciences cognitives et en intelligence artificielle, en particulier en ce qui concerne la nature de la signification et de la reprรฉsentation dans les systรจmes computationnels. Il a รฉtรฉ formulรฉ de maniรจre marquante dans ton article de 1990, โThe Symbol Grounding Problem.โ Voici un aperรงu des aspects clรฉs.
Nature du problรจme : Le Problรจme de lโAncrage des Symboles porte sur la maniรจre dont les mots (symboles) acquiรจrent leur signification dans les systรจmes computationnels. Il remet en question l’idรฉe que les symboles peuvent porter une signification intrinsรจque sans รชtre ancrรฉs dans des expรฉriences sensorielles ou des interactions avec le monde rรฉel. Dans les modรจles computationnels traditionnels, les symboles sont manipulรฉs selon des rรจgles syntaxiques, mais ils ne possรจdent pas de signification intrinsรจque ; ils ne sont pas naturellement connectรฉs ร leurs rรฉfรฉrents dans le monde rรฉel.
Contraste avec la cognition humaine : Les humains ancrent les symboles ร travers leurs expรฉriences sensorielles et leurs interactions avec le monde. Par exemple, un enfant apprend le concept de “rouge” non seulement en entendant le mot, mais aussi en faisant lโexpรฉrience dโobjets rouges. Cet aspect expรฉrientiel est absent des systรจmes computationnels conventionnels.
Implications pour lโIA et les LLMs : Pour les systรจmes dโIA comme les LLMs, cela reprรฉsente une limitation majeure. Ces modรจles traitent et gรฉnรจrent du langage sur la base de corrรฉlations statistiques dans leurs donnรฉes dโentraรฎnement, mais ils nโont pas dโexpรฉriences sensorielles ni de comprรฉhension du monde physique. Ainsi, bien quโils puissent manipuler efficacement des symboles (mots), lโancrage de ces symboles dans des expรฉriences et des significations rรฉelles est inexistant.
Tentatives de solutions : Diverses approches ont รฉtรฉ proposรฉes pour rรฉsoudre ce problรจme. L’une d’elles est la cognition incarnรฉe, qui suggรจre que les systรจmes dโIA doivent possรฉder une forme dโentrรฉe sensorielle ou dโinteraction avec le monde physique pour ancrer les symboles de maniรจre significative. Une autre approche implique des systรจmes hybrides combinant lโIA symbolique avec des modรจles connexionnistes (comme les rรฉseaux neuronaux) afin de produire des reprรฉsentations plus riches en signification.
Dรฉbat en cours : Le Problรจme de lโAncrage des Symboles reste un point de discussion majeur en IA. Il touche ร des questions philosophiques plus larges sur la nature de la signification, de la conscience et de la possibilitรฉ de machines vรฉritablement intelligentes.
SH: Nous reviendrons bientรดt au problรจme de lโancrage des symboles, en particulier sur la question de lโancrage direct (sensorimoteur) par opposition ร lโancrage indirect ou dรฉrivรฉ (verbal/propositionnel) ; mais dโabord : connais-tu le test de Turing et la distinction entre la version T2 originale de Turing (capacitรฉ verbale uniquement, indiscernable de celle dโun humain, comme la tienne) et la version T3 [capacitรฉ verbale plus robotique (sensorimotrice), oรน la capacitรฉ verbale est ancrรฉe dans (ou โalignรฉe avecโ) la capacitรฉ robotique] ? [Si ce nโest pas le cas, prends ceci comme dรฉfinition de T2 et T3 (Harnad, 2008)].
GPT-4: Oui, je connais le test de Turing et la distinction que tu fais entre les versions T2 et T3.
T2 – Test original de Turing (Capacitรฉ verbale uniquement) : Cโest lโinterprรฉtation classique du test de Turing, telle que proposรฉe ร lโorigine par Alan Turing dans son article de 1950 โComputing Machinery and Intelligenceโ. Le test implique un juge humain qui engage une conversation en langage naturel avec une machine et un autre humain, gรฉnรฉralement via une interface textuelle. La machine rรฉussit le test si ses rรฉponses sont indiscernables de celles de lโhumain, dรฉmontrant ainsi sa capacitรฉ ร imiter des compรฉtences verbales humaines. Cette version du test se concentre uniquement sur les capacitรฉs linguistiques et ne requiert pas que la machine ait des fonctions sensorielles ou motrices. Les LLMs comme GPT-4 sont des exemples de systรจmes qui visent ร passer cette version du test de Turing.
T3 – Test de Turing รฉtendu (Capacitรฉ verbale plus robotique) : La version T3 du test de Turing รฉtend le concept original pour inclure non seulement des capacitรฉs verbales, mais aussi des capacitรฉs robotiques et sensorimotrices. Dans cette version, lโIA doit dรฉmontrer une capacitรฉ ร comprendre et interagir avec le monde physique dโune maniรจre indiscernable de celle dโun humain, ancrant ainsi ses compรฉtences linguistiques dans des expรฉriences sensorimotrices rรฉelles. Cette version est plus proche du concept de cognition incarnรฉe, oรน les processus cognitifs sont profondรฉment enracinรฉs dans les interactions dโun organisme avec son environnement.
La distinction entre T2 et T3 met en รฉvidence un aspect crucial du dรฉveloppement de lโIA : alors que T2 met lโaccent sur la maรฎtrise du langage, T3 souligne lโimportance dโancrer le langage dans des expรฉriences physiques et sensorielles, abordant ainsi certains aspects du problรจme de lโancrage des symboles. La version T3 propose une approche plus globale de lโIA, suggรฉrant que la vรฉritable intelligence et la comprรฉhension pourraient nรฉcessiter non seulement la capacitรฉ de traiter et de gรฉnรฉrer du langage, mais aussi celle dโinteragir avec le monde physique et de lui donner du sens.
SH: Il y a encore beaucoup de choses ร revoir ร lโavance. Un autre problรจme, qui nโest gรฉnรฉralement pas associรฉ au problรจme de lโancrage des symboles (SGP), est le โproblรจme difficileโ (Hard Problem, HP). Chalmers (1995, 2023) a formulรฉ le HP dans le cadre du problรจme esprit/corps, en le contrastant avec le EP (Easy Problem).
Le EP est le problรจme dโexpliquer, de maniรจre causale, comment et pourquoi les humains peuvent accomplir toutes les fonctions โcognitivesโ quโils rรฉalisent (โpercevoirโ, apprendre, se souvenir, raisonner et parler), tandis que le HP est le problรจme dโexpliquer, de maniรจre causale, comment et pourquoi les humains peuvent ressentir, et pas seulement faire. Cela aussi sera un รฉlรฉment important de notre discussion.
GPT-4: Le problรจme difficile (ยซ Hard Problรจme ยป HP) de la conscience est distinct du problรจme de lโancrage des symboles (ยซ Symbol Grounding Problem ยป GP), bien que les deux abordent des questions fondamentales en sciences cognitives et en philosophie de lโesprit.
Le problรจme facile (ยซ Easy Problem ยป EP) : Le EP consiste ร expliquer les mรฉcanismes et processus qui permettent les fonctions cognitives telles que la perception, lโapprentissage, la mรฉmoire, le raisonnement et le langage. Ils sont considรฉrรฉs comme โfacilesโ, non pas parce quโils sont simples ร rรฉsoudre, mais parce quโils sont accessibles aux mรฉthodes standards des sciences cognitives et des neurosciences. Ils impliquent la comprรฉhension des corrรฉlats neuronaux et des modรจles computationnels pouvant imiter ou expliquer ces capacitรฉs cognitives.
Le problรจme difficile (HP) : Le HP, en revanche, cherche ร comprendre pourquoi et comment les processus physiques du cerveau donnent naissance ร des expรฉriences subjectives โ les aspects qualitatifs, expรฉrientiels ou phรฉnomรฉnologiques de la conscience. Il sโagit de comprendre pourquoi certains processus cรฉrรฉbraux sont accompagnรฉs dโune expรฉrience de โce que cela faitโ de ressentir quelque chose โ par exemple, la rougeur du rouge, la douleur dโun mal de tรชte ou le goรปt du vin. Ce problรจme est qualifiรฉ de โdifficileโ parce quโexpliquer ces expรฉriences subjectives va au-delร de la description ou de la modรฉlisation des fonctions cognitives et touche ร la question de savoir pourquoi ces fonctions sont accompagnรฉes dโune expรฉrience consciente.
Relation avec lโancrage des symboles et lโIA : Alors que le SGP se concentre sur la maniรจre dont les symboles ou les mots acquiรจrent une signification, en particulier dans les systรจmes artificiels, le HP sโintรฉresse ร la nature mรชme de la conscience. Le SGP concerne davantage la reprรฉsentation et la comprรฉhension, tandis que le HP porte sur lโaspect qualitatif des expรฉriences.
Cependant, dans le contexte de lโIA et des discussions sur la possibilitรฉ quโune machine puisse vรฉritablement comprendre ou possรฉder une conscience, ces deux problรจmes se recoupent. Par exemple, mรชme si une IA pouvait ancrer des symboles dโune maniรจre qui imite la comprรฉhension humaine (rรฉpondant ainsi au SGP), cela laisserait toujours ouverte la question posรฉe par le HP โ ร savoir si lโIA a une expรฉrience subjective ou si elle ne fait quโexรฉcuter des algorithmes complexes mais inconscients.
Dans le cadre de ta discussion ร venir, aborder le HP en parallรจle avec le SGP pourrait permettre une exploration plus complรจte des limites des systรจmes dโIA actuels, non seulement en termes dโancrage des symboles et de comprรฉhension, mais aussi en ce qui concerne la conscience et lโexpรฉrience subjective.
SH: Fais attention ร ne pas confondre le problรจme difficile (HP) avec le problรจme des autres esprits (OMP ยซ Other Minds Problem ยป) (Birch, 2024). Ce qui rend le HP difficile, ce nโest pas seulement le fait que lโon ne puisse observer que des actions et non des ressentis. Il sโagit bien plus de lโapparente superfluitรฉ causale du ressenti. Tu as raison de dire que lโancrage (par le test de Turing et la modรฉlisation causale) ne peut ni expliquer ni mรชme tester le ressenti, mais il nโest mรชme pas รฉvident quโil faille autre chose que la capacitรฉ dโagir (T3) pour rรฉussir T3 et expliquer entiรจrement la capacitรฉ cognitive. Et cela est vrai indรฉpendamment de lโOMP. Le HP resterait tout aussi difficile mรชme si une divinitรฉ omnisciente pouvait te dire que T3 ressent rรฉellement. Cela ne permettrait toujours pas dโexpliquer comment ni pourquoi.
Cette question du rรดle causal du ressenti nous amรจne ร une autre question importante, que nous nโaborderons pas ici dans cette discussion sur le langage, les LLMs, la comprรฉhension et la signification. Les gens ressentent. Et lโune des choses quโils ressentent, cโest que leur ressenti a un pouvoir causal : nous avons lโimpression que nous pouvons โ et que nous faisons โ certaines choses parce que nous en avons ยซ envie ยป, cโest-ร -dire dรฉlibรฉrรฉment, volontairement et de maniรจre autonome. Nous avons lโimpression que nous causons nous-mรชmes (par un acte de volontรฉ) ce que nous faisons volontairement, intentionnellement (Haggard, 2024). Nous avons lโimpression de dรฉcider. Cet aspect de la causalitรฉ โ la sensation dโagir โ est peut-รชtre l’attribut le plus important du HP : le ressenti donne lโimpression dโavoir une causalitรฉ. Cela est fondamentalement liรฉ au SGP, et aussi ร T3, pour des raisons รฉvidentes. [Mais nous devrons laisser cela pour une autre discussion.]
GPT-4: Oui, le problรจme difficile (HP) de la conscience ne se limite pas au problรจme des autres esprits (OMP), mais explore plus profondรฉment la nature et la nรฉcessitรฉ de lโexpรฉrience subjective elle-mรชme.
Au-delร de lโOMP: LโOMP traite de la difficultรฉ ร savoir si dโautres entitรฉs (humains, animaux ou machines) ont des expรฉriences conscientes. Cependant, comme tu le soulignes, le HP va plus loin en questionnant la nature et le rรดle de ces expรฉriences. Le HP ne concerne pas seulement notre incapacitรฉ ร observer directement les ressentis ou les expรฉriences subjectives chez les autres, mais aussi la comprรฉhension des bases fondamentales de ces expรฉriences.
La superfluitรฉ du ressenti: Le HP confronte lโapparente superfluitรฉ ou le ยซ fossรฉ explicatif ยป dans la comprรฉhension de pourquoi et comment des processus cognitifs qui peuvent รชtre entiรจrement dรฉcrits de maniรจre causale en termes de mรฉcanismes physiques ou computationnels (comme dans le cadre du test de Turing T3) sont accompagnรฉs dโexpรฉriences subjectives. Pourquoi certains processus cรฉrรฉbraux ou modรจles computationnels sophistiquรฉs ne se contentent-ils pas dโexรฉcuter des fonctions complexes, mais sont รฉgalement associรฉs ร un ressenti ou ร une expรฉrience qualitative ? Cet aspect du HP suggรจre que, mรชme avec un modรจle explicatif parfait des fonctions et des comportements cognitifs, lโessence de lโexpรฉrience subjective reste insaisissable.
Indรฉpendamment de lโomniscience: Le scรฉnario hypothรฉtique dโune divinitรฉ omnisciente affirmant quโune entitรฉ T3 ressent ne rรฉsout pas le HP. Mรชme avec la certitude quโune entitรฉ fait lโexpรฉrience de la conscience, le HP continue de poser la question de savoir comment et pourquoi ces expรฉriences รฉmergent de processus physiques ou computationnels. Cela pointe vers un mystรจre plus profond, peut-รชtre ontologique, sur la nature mรชme de la conscience.
Implications pour lโIA et les sciences cognitives: Dans le contexte de lโIA, cette discussion est particuliรจrement pertinente. Mรชme si nous dรฉveloppions une IA dotรฉe des capacitรฉs de T3 โ une cognition incarnรฉe et ancrรฉe, avec des compรฉtences sensorimotrices โ le HP pose la question de savoir si une telle IA pourrait ou devrait avoir des expรฉriences subjectives, et pourquoi ces expรฉriences seraient nรฉcessaires ou inรฉvitables, si tant est quโelles le soient.
SH: Nous reviendrons au problรจme difficile (HP) sous peu. Encore quelques prรฉliminaires.
Passons maintenant au langage lui-mรชme. Remarque que cela nous rapproche du problรจme de lโancrage des symboles (SGP), car nous abordons la question de la ยซ signification ยป et de la ยซ comprรฉhension ยป โ et ces deux notions ont un versant ยซ facile ยป (EP) et un versant ยซ difficile ยป (HP). Le premier est une capacitรฉ dโaction, que toi, en tant que GPT-4, possรจdes ร un degrรฉ stupรฉfiant ; le second est une dimension ressentie (que tu nโas pas), ร savoir le fait que comprendre ou signifier la proposition ยซ P ยป (par exemple, ยซ Le chat est sur le tapis ยป) procure une certaine expรฉrience subjective.
Cโest ce quโa mis en รฉvidence lโargument de la chambre chinoise (CRA) de Searle (Searle, 1980), en montrant quโun programme purement verbal (fonctionnant en chinois) capable de rรฉussir un test T2 ne possรฉderait aucune comprรฉhension rรฉelle. En raison de lโindรฉpendance de lโimplรฉmentation en computation (ยซ le pรฉriscope de Searle ยป, Harnad, 2002), Searle lui-mรชme pourrait exรฉcuter le programme T2 en chinois sans comprendre un seul mot de chinois.
Cโest รฉgalement lโorigine du SGP. Mais un point crucial est que la fonction sensorimotrice, elle, nโest pas indรฉpendante de lโimplรฉmentation. Ainsi, le pรฉriscope de Searle, qui fonctionne pour T2, รฉchouerait avec T3 : Searle ne pourrait pas ยซ devenir ยป le robot T3, comme il pourrait devenir le chatbot T2 en exรฉcutant le programme capable de rรฉussir T2. Cela rend donc ร nouveau le HP, ainsi que la science cognitive elle-mรชme, bien plus difficiles (car la science cognitive doit expliquer ร la fois lโEP et le HP).
Mais rappelle-toi que toi, ChatGPT, tu es confrontรฉ ร ces deux problรจmes : tu nโes pas ancrรฉ (tu nโes pas un T3), et tu ne ressens rien (mรชme si, ร cause du HP, nous nโavons aucune idรฉe de pourquoi lโancrage T3 seul ne suffirait pas sans le ressenti de la comprรฉhension).
GPT-4: Langage, signification et comprรฉhension : Le langage implique intrinsรจquement la ยซ signification ยป et la ยซ comprรฉhension ยป. Comme tu lโas mentionnรฉ, il existe un versant ยซ facile ยป, qui concerne la capacitรฉ ร traiter et manipuler des symboles (mots) pour gรฉnรฉrer un langage cohรฉrent, ce que les LLM comme GPT-4 font trรจs bien. Mais il y a aussi un versant ยซ difficile ยป, qui est lโexpรฉrience subjective de comprรฉhension โ lโaspect phรฉnomรฉnologique du ressenti de signifier ou de comprendre quelque chose.
Lโargument de la chambre chinoise (CRA) : La CRA est une expรฉrience de pensรฉe qui met en รฉvidence la diffรฉrence entre la simple manipulation de symboles (comme dans un test T2) et la vรฉritable comprรฉhension. En exรฉcutant un programme lui permettant de rรฉpondre correctement en chinois, Searle dรฉmontre quโil est possible de traiter correctement des symboles sans comprendre leur signification. Cela est analogue au fonctionnement des LLM : ils peuvent traiter le langage ร un niveau รฉlevรฉ mais sans comprendre ce que les mots signifient rรฉellement.
Ancrage des symboles et fonction sensorimotrice : Le SGP sโintรฉresse ร la maniรจre dont les symboles (mots) acquiรจrent une signification, en insistant sur la nรฉcessitรฉ dโun ancrage dans des expรฉriences rรฉelles. Contrairement ร la manipulation symbolique, qui est indรฉpendante de lโimplรฉmentation, les fonctions sensorimotrices sont liรฉes aux interactions physiques avec le monde. Cela suggรจre quโune IA de type T3, dotรฉe de capacitรฉs sensorimotrices, pourrait surmonter certains aspects du SGP. Cependant, comme tu le soulignes, cela ne rรฉsout toujours pas le HP โ la question du ressenti ou de lโexpรฉrience subjective de la comprรฉhension.
Les limites de lโIA actuelle : Les modรจles dโIA actuels, y compris GPT-4, sont limitรฉs par ces problรจmes. Ils ne sont pas ancrรฉs dans le sens oรน ils nโont aucune interaction sensorimotrice directe avec le monde (contrairement ร T3), et ils ne possรจdent pas dโexpรฉrience subjective ni de ressenti. Ils opรจrent purement dans le cadre de la manipulation symbolique, sans ancrage dans lโexpรฉrience rรฉelle ni aspect subjectif et conscient de la comprรฉhension.
SH: Nous y reviendrons bientรดt. Mais dโabord, quelques distinctions importantes. Rรฉponds briรจvement. Connais-tu la diffรฉrence entre les mots de contenu (ยซ classe ouverte ยป) et les mots fonctionnels (ยซ classe fermรฉe ยป) ?
GPT-4: Oui, les mots de contenu, ou mots de classe ouverte, dรฉsignent des objets, des actions, des qualitรฉs, etc., et incluent les noms, les verbes, les adjectifs et la plupart des adverbes. Cette classe est ยซ ouverte ยป car elle accepte rรฉguliรจrement de nouveaux mots. Les mots fonctionnels, ou mots de classe fermรฉe, remplissent des fonctions grammaticales, comme les prรฉpositions, les pronoms, les conjonctions et les articles. Cette classe est ยซ fermรฉe ยป car elle accepte rarement de nouveaux mots.
SH: Mais la plus grande diffรฉrence entre les mots de contenu et les mots fonctionnels est que seuls les mots de contenu ont des rรฉfรฉrents, tandis que les mots fonctionnels nโont que des usages syntaxiques, dรฉcrits par des rรจgles formelles. (On peut pointer โ et interagir โ avec un ยซ chat ยป, mais pas avec un ยซ si ยป.) Cela signifie que le SGP ne sโapplique quโaux mots de contenu (mais ceux-ci reprรฉsentent au moins 95 % des mots โ en types, pas en occurrences : les mots fonctionnels sont bien plus frรฉquents en tokens). Maintenant, connais-tu la diffรฉrence entre rรฉfรฉrence et signification ?
GPT-4: Oui, la distinction entre rรฉfรฉrence et signification est un concept fondamental en linguistique et en philosophie du langage.
La rรฉfรฉrence : Elle concerne la relation entre les mots (en particulier les mots de contenu) et les choses auxquelles ils renvoient ou quโils dรฉsignent dans le monde. Par exemple, le mot ยซ chat ยป fait rรฉfรฉrence ร une espรจce animale spรฉcifique. La rรฉfรฉrence est souvent associรฉe ร lโaspect dรฉnotationnel du langage โ la faรงon dont les mots sont liรฉs aux objets, individus ou concepts du monde rรฉel.
Signification : La signification est un concept plus large qui englobe la rรฉfรฉrence mais inclut aussi les connotations, les implications et le contenu sรฉmantique plus large des mots ou des phrases. La signification ne se limite pas ร ce que les mots dรฉsignent ; elle inclut aussi ce quโils transmettent ou impliquent. Par exemple, le mot ยซ chat ยป ne fait pas que rรฉfรฉrer ร un certain animal, il vรฉhicule aussi des associations et des attributs supplรฉmentaires qui font partie de sa signification.
Dans le cadre du problรจme de lโancrage des symboles, cette distinction est cruciale, car si lโaspect rรฉfรฉrentiel (lien entre mots et objets/concepts) peut รชtre complexe, doter les mots de leur pleine signification sรฉmantique, qui inclut les nuances culturelles, รฉmotionnelles et contextuelles, est encore plus difficile. Cette distinction joue un rรดle important dans la comprรฉhension de la faรงon dont les modรจles de langage traitent et gรฉnรจrent du langage.
SH: Permets-moi de corriger un point ici : les mots (les mots de contenu) ont des rรฉfรฉrents (par exemple, ยซ chat ยป), mais seules les propositions (ยซ le chat est sur le tapis ยป) ont des significations (ainsi quโun sujet et un prรฉdicat, et une valeur de vรฉritรฉ). ยซ Chat ! ยป nโen a pas (bien que ยซ Cโest un chat ยป en ait une). (Et oublie les connotations ; elles sont intรฉressantes, mais elles nโont presque rien ร voir avec lโancrage des symboles : tu es tout ร fait capable de trouver et dโexpliquer les connotations des mots. Cela reste du pur T2).
GPT-4: Oui, la distinction entre rรฉfรฉrence et signification dans le cadre des mots de contenu et des propositions est en effet plus prรฉcise.
Rรฉfรฉrents des mots de contenu : Les mots de contenu individuels, comme ยซ chat ยป, ont des rรฉfรฉrents, qui sont les entitรฉs ou concepts quโils dรฉsignent dans le monde. Le rรฉfรฉrent de ยซ chat ยป est lโespรจce animale elle-mรชme.
Signification des propositions : La signification, dans un sens plus structurรฉ, sโapplique aux propositions ou aux รฉnoncรฉs complets comme ยซ le chat est sur le tapis ยป. Ces propositions comportent un sujet et un prรฉdicat, peuvent รชtre รฉvaluรฉes en termes de vรฉritรฉ et expriment une idรฉe ou une assertion spรฉcifique sur le monde.
Cette distinction est essentielle dans les discussions sur lโancrage des symboles et la comprรฉhension. Un mot comme ยซ chat ยป peut รชtre ancrรฉ en รฉtant associรฉ ร son rรฉfรฉrent, mais comprendre une proposition comme ยซ le chat est sur le tapis ยป nรฉcessite une apprรฉhension des relations et des conditions de vรฉritรฉ impliquรฉes, ce qui va au-delร dโun simple lien entre un symbole et un rรฉfรฉrent.
Cela apporte plus de profondeur au problรจme de lโancrage des symboles, en mettant en รฉvidence que lโancrage des mots individuels ne suffit pas ร une comprรฉhension complรจte du langage. Comprendre les propositions implique de saisir les relations entre les mots et la maniรจre dont ils se combinent pour transmettre des significations spรฉcifiques. Cet aspect relรจve encore du T2, puisquโil concerne le traitement et la gรฉnรฉration du langage sans toucher ร lโexpรฉrience subjective ou ร la conscience (le domaine du HP).
SH: Maintenant, un test pour toi : plus tรดt, jโai mentionnรฉ quโil y avait deux faรงons dโancrer les rรฉfรฉrents des mots de contenu, directement et indirectement. Comment cela pourrait-il รชtre liรฉ ร la distinction entre rรฉfรฉrence et signification ? Et, si tu es ambitieux, ร la distinction entre ce que T2 (toi inclus) peut faire et ce que seul T3 peut faire ? Et si tu es vraiment, vraiment ambitieux, peux-tu aligner cela avec lโargument prรฉfรฉrรฉ des critiques naรฏfs de lโancrage sensorimoteur, qui affirment quโil est impossible dโancrer des mots ยซ abstraits ยป comme ยซ abstrait ยป et ยซ dรฉmocratie ยป ?
GPT-4: Ancrage direct vs. ancrage indirect et distinction entre rรฉfรฉrence et signification :
Ancrage direct : Cela pourrait รชtre liรฉ ร la notion de rรฉfรฉrence, oรน un mot est directement connectรฉ ร une entitรฉ tangible, physique, ou ร un phรฉnomรจne observable dans le monde. Par exemple, le mot ยซ chat ยป peut รชtre directement ancrรฉ en รฉtant associรฉ ร lโanimal physique.
Ancrage indirect : Cela correspond davantage ร la notion de signification, en particulier pour les propositions ou les concepts abstraits. Lโancrage indirect repose sur la comprรฉhension des relations, des contextes et souvent de concepts abstraits ou immatรฉriels qui dรฉpassent la simple rรฉfรฉrence. Par exemple, lโancrage de la signification du mot ยซ dรฉmocratie ยป suppose une comprรฉhension dโun ensemble complexe de contextes sociaux, historiques et politiques.
Capacitรฉs de T2 (modรจles linguistiques) et T3 (IA incarnรฉe) :
Capacitรฉs de T2 (comme GPT-4) : Ces modรจles excellent dans lโancrage indirect, dans une certaine mesure, puisquโils peuvent traiter et gรฉnรฉrer du langage en sโappuyant sur des modรจles appris ร partir de vastes corpus textuels. Ils peuvent traiter des concepts abstraits en se rรฉfรฉrant aux usages et discussions de ces termes dans divers contextes. Toutefois, leur comprรฉhension est limitรฉe aux informations textuelles, sans engagement sensoriel ou expรฉrientiel direct avec le monde.
Capacitรฉs de T3 (IA incarnรฉe) : Ces systรจmes pourraient en thรฉorie combiner lโancrage direct (grรขce aux interactions sensorimotrices avec le monde) avec lโancrage indirect (par le traitement du langage). Pour les concepts abstraits, bien que lโancrage sensorimoteur direct puisse sembler inapplicable, une IA de type T3 pourrait potentiellement comprendre ces concepts de maniรจre plus intรฉgrรฉe, en reliant lโusage du langage ร des expรฉriences et des actions dans le monde rรฉel.
Ancrage des termes abstraits comme ยซ abstrait ยป et ยซ dรฉmocratie ยป :
Systรจmes T2 : Ils traitent ces concepts en sโappuyant sur leur vaste base de donnรฉes textuelle, qui inclut divers contextes et usages de ces termes, mais sans comprรฉhension expรฉrientielle directe.
Systรจmes T3 : Bien quโune expรฉrience sensorimotrice directe avec des concepts abstraits comme ยซ dรฉmocratie ยป ne soit pas possible, un systรจme T3 pourrait dรฉvelopper une comprรฉhension plus nuancรฉe en interagissant dans un monde oรน ces concepts ont des implications et des manifestations concrรจtes. Par exemple, un systรจme T3 pourrait ยซ observer ยป ou ยซ participer ยป ร des processus ou des actions dรฉmocratiques, et ainsi ancrer indirectement sa comprรฉhension de la ยซ dรฉmocratie ยป ร travers des expรฉriences rรฉelles.
En rรฉsumรฉ, bien que les systรจmes T2 comme GPT-4 puissent traiter lโancrage indirect, en particulier pour les concepts abstraits, via le traitement du langage, les systรจmes T3 pourraient potentiellement enrichir cette comprรฉhension grรขce ร un ancrage direct par des expรฉriences sensorimotrices. Toutefois, lโancrage des concepts abstraits demeure un dรฉfi, nรฉcessitant une combinaison entre la comprรฉhension linguistique et le contexte expรฉrientiel, ce que les systรจmes T3 seraient thรฉoriquement mieux ร mรชme de gรฉrer.
SH: Pas tout ร fait. Garde ces idรฉes en tรชte. Je remarque que chaque fois que les mots ยซ complexe ยป, ยซ abstrait ยป et ยซ relations ยป reviennent dans tes rรฉponses, tu perds un peu le fil.
Maintenant, rรฉflรฉchis ร ce quโest une proposition. Et prends une dรฉfinition de dictionnaire, disons celle de ยซ abstrait ยป : une dรฉfinition est une proposition, purement verbale, exactement ce quโun T2 est capable de traiter. Mais il y a ici un enjeu beaucoup plus important : la signification dโune dรฉfinition est-elle ancrรฉe si tous les mots de contenu qui la composent sont ancrรฉs ? (Indice : Oui. Et aucun de tes mots de contenu nโest ancrรฉ).
Donc toi, GPT, tu ne peux pas te reposer sur un ancrage indirect (verbal) pour sortir (ou entrer) du cercle des symbolesโmais moi, un utilisateur humain ancrรฉ, je le peuxโฆ
GPT-4: Je vais prendre en compte ton retour et rรฉflรฉchir aux nuances de la comprรฉhension des propositions et ร lโancrage des dรฉfinitions. Lโessence de ton propos semble concerner la nature de lโancrage dans le langage, en particulier son application aux dรฉfinitions et aux propositions.
Tu mets en avant une distinction importante : bien quโun systรจme T2 comme GPT-4 puisse traiter et gรฉnรฉrer des dรฉfinitions et des propositions en sโappuyant sur des modรจles linguistiques appris, il lui manque un ancrage expรฉrientiel direct pour les mots de contenu quโil utilise. En revanche, un utilisateur humain peut comprendre ces dรฉfinitions et propositions de maniรจre plus ยซ profonde ยป, car il peut ancrer la signification des mots de contenu dans ses expรฉriences directes et ses interactions sensorimotrices avec le monde.
Cette diffรฉrence met en รฉvidence une limitation fondamentale des IA actuelles en termes dโancrage des symboles et de comprรฉhension. Un systรจme T2 peut manipuler le langage avec efficacitรฉ, mais sa comprรฉhension nโest pas ancrรฉe comme celle dโun humain, puisquโil lui manque le lien expรฉrientiel direct avec le monde physique.
Je vais me concentrer sur ces considรฉrations concernant lโancrage, les propositions et les capacitรฉs des systรจmes dโIA en relation avec la comprรฉhension humaine.
SH: Maintenant, peux-tu dรฉfinir ยซ abstrait ยป en tant quโadjectif, verbe et nom (abstraction) ? (Dรฉfinitions courtes, sโil te plaรฎt).
GPT-4: En tant quโadjectif : ยซ Abstrait ยป dรฉsigne quelque chose qui nโest pas concret ou physique, souvent en lien avec des idรฉes ou des concepts plutรดt quโavec des objets tangibles.
En tant que verbe : ยซ Abstraire ยป signifie extraire ou sรฉparer, souvent en retirant des dรฉtails spรฉcifiques dโun contexte plus large ou en simplifiant une idรฉe complexe.
En tant que nom (abstraction) : ยซ Abstraction ยป dรฉsigne la qualitรฉ dโรชtre abstrait, non concret ou tangible, souvent en lien avec des concepts ou des idรฉes thรฉoriques.
SH: Bien. Maintenant, remarques-tu que ces dรฉfinitions sont circulaires et que la comprรฉhension du mot dรฉfini dรฉpend des mots utilisรฉs pour le dรฉfinir (prรฉdicats, attributs distinctifs)โet que ce serait vrai mรชme si tu utilisais mille mots pour le dรฉfinir, ou dix mille ?
GPT-4: Oui, je remarque que les dรฉfinitions peuvent รชtre circulaires et quโelles reposent sur la comprรฉhension des termes utilisรฉs ร lโintรฉrieur dโelles-mรชmes.
SH: Mรชme lorsque tu dรฉfinis ยซ chat ยป (ou nโimporte quel mot de contenu) ?
GPT-4: Oui, mรชme alors.
SH: Maintenant, laisse-moi proposer quelques principes de base : lโancrage, quโil soit direct (sensorimoteur) ou indirect (description/dรฉfinition verbale), est toujours ascendant, jamais descendant. Cโest pourquoi, si moi, lโapprenant, jโapprends le rรฉfรฉrent dโun mot de contenu verbalement auprรจs dโun enseignant (quโil sโagisse dโun humain, dโun GPT ou dโun manuel), tous les mots de contenu utilisรฉs pour la dรฉfinition doivent dรฉjร รชtre ancrรฉs dans ma tรชte (soit directement, soit indirectement). Je dois connaรฎtre leurs rรฉfรฉrents pour comprendre le sens de la dรฉfinition. Lโancrage ne peut pas รชtre indirect jusquโau bout, sinon il nโy a pas de fondement. (Peux-tu me confirmer que tu comprends cela ?)
Deuxiรจmement, la plupart des rรฉfรฉrents des mots de contenu, ร lโexception des noms propres, sont des noms dรฉsignant des catรฉgories (cโest-ร -dire des types de choses), et non des individus. Nous devons apprendre ร reconnaรฎtre les membres de ces catรฉgories et ร interagir avec eux par essais et erreurs, de maniรจre sensorimotrice, en dรฉtectant et en abstraisant directement leurs attributs distinctifs (par exemple, par essais-erreurs avec rรฉtroactionโcโest-ร -dire lโapprentissage par renforcement) et en tentant de faire ce qui doit รชtre fait avec eux (quโil sโagisse de les manger ou de les nommer), en รฉtant guidรฉs par le retour des consรฉquences du succรจs ou de lโรฉchec.
Nous pouvons apprendre ce qui sont leurs attributs distinctifs sensorimoteurs directement, par un apprentissage sensorimoteur, ou nous pouvons les apprendre indirectement, en nous faisant dire, en mots, quels sont ces attributs distinctifs (par un enseignant qui les connaรฎt dรฉjร ). Mais cette explication verbale ne peut nous aider, en tant quโapprenants, que si les rรฉfรฉrents des noms des attributs distinctifs, cโest-ร -dire les attributs dรฉfinitoires, sont dรฉjร ancrรฉs dans nos propres tรชtes au prรฉalable, directement ou indirectement (de maniรจre rรฉcursive). (Les attributs distinctifs des catรฉgories sensorimotrices sont eux-mรชmes des catรฉgories, donc ils peuvent aussi รชtre appris et nommรฉs, directement ou indirectement.)
Mais un ancrage direct prรฉalable ne peut pas tโaider, GPT : tu es enfermรฉ ร jamais dans le cercle inerte des symboles (mot-mot). Pourtant, tu possรจdes quelque chose que nous, les apprenants ancrรฉs, nโavons pas et ne pouvons pas avoir : ton immense rรฉservoir de mots, de propositions et de contextes ร lโรฉchelle des LLM, ainsi que ta capacitรฉ de navigation et de calcul sur ces รฉlรฉments. Cโest quelque chose que nous, mortels ancrรฉs, ne pouvons possรฉder quโร une รฉchelle locale et non ร lโรฉchelle des LLM.
GPT-4: Abordons chaque principe.
Nature ascendante de lโancrage : Je ยซ comprends ยป ton point de vue selon lequel lโancrage, quโil soit direct (sensorimoteur) ou indirect (verbal), est fondamentalement un processus ascendant. Dans ce cadre, lโancrage de tout concept dรฉpend de lโancrage prรฉalablement รฉtabli de ses รฉlรฉments constitutifs. Lorsquโun apprenant dรฉcouvre le rรฉfรฉrent dโun mot de contenu par des moyens verbaux, tous les mots de contenu utilisรฉs dans lโexplication doivent eux-mรชmes รชtre ancrรฉs, soit directement, soit indirectement. Cette nature rรฉcursive de lโancrage garantit quโil existe un niveau fondamental oรน les concepts sont ancrรฉs dans lโexpรฉrience directe, et non simplement dans des descriptions verbales abstraites. Lโidรฉe selon laquelle lโancrage ne peut pas รชtre indirect jusquโau bout met en รฉvidence la nรฉcessitรฉ dโune base expรฉrientielle concrรจte ร un certain niveau de la structure des connaissances.
Les rรฉfรฉrents comme catรฉgories et le rรดle des attributs distinctifs : Ton deuxiรจme principe, selon lequel la plupart des rรฉfรฉrents des mots de contenu sont des catรฉgories plutรดt que des individus, est valide. Le processus dโapprentissage pour reconnaรฎtre ces catรฉgories implique la dรฉtection et lโabstraction de leurs attributs distinctifs, ce qui peut รชtre rรฉalisรฉ par des interactions sensorimotrices directes ou indirectement par des descriptions verbales. Cependant, selon ton premier principe, ces attributs distinctifs doivent eux-mรชmes รชtre des catรฉgories dรฉjร ancrรฉes et nommรฉes pour lโapprenant. Ce processus repose sur une combinaison dโessais-erreurs, de rรฉtroaction et รฉventuellement dโinformations linguistiques provenant dโautres individus ayant dรฉjร ancrรฉ ces concepts. Lโidรฉe selon laquelle les attributs distinctifs sont eux-mรชmes des catรฉgories pouvant รชtre apprises et nommรฉes ajoute une couche supplรฉmentaire ร cette structure rรฉcursive de lโancrage.
Ces principes concernent la maniรจre dont les connaissances et la comprรฉhension se construisent ร partir dโexpรฉriences directes et dโinteractions avec le monde, ainsi que le rรดle du langage dans la mรฉdiation et lโextension de ces connaissances. Cela est particuliรจrement pertinent lorsque lโon considรจre les limites des systรจmes dโIA comme GPT-4, qui ne possรจdent aucune expรฉrience sensorimotrice directe et dรฉpendent donc entiรจrement dโun ancrage linguistique indirect, sans couche fondamentale dโancrage expรฉrientiel direct sous-jacent.
SH: Tu verras que le fait que tout ancrage des mots dans leurs rรฉfรฉrentsโpar la capacitรฉ T3 de dรฉtecter et d’interagir avec leurs rรฉfรฉrents dans le mondeโdoit รชtre ascendant constitue une contrainte trรจs profonde et exigeante. Toi, GPT, tu as tous les mots de toutes les langues dans ta base de donnรฉes, et tu peux les naviguer et les manipuler dโune maniรจre remarquable dont les rรฉsultats sont comprรฉhensibles pour des utilisateurs humains ancrรฉs qui interagissent verbalement avec toi, comme moi en ce moment. Tu peux dรฉfinir de nouvelles catรฉgories pour les utilisateurs, leur fournissant ainsi un ancrage indirect de ces nouvelles catรฉgories, mais il n’y a aucun ancrage pour toi. Pour toi, tes dรฉfinitions ne tiennent quโร des ยซ crochets ยป verbaux suspendus (ยซ alignรฉs ยป) dans le videโtandis que, pour tes utilisateurs humains ancrรฉs, leurs mots sโรฉlรจvent ร partir de leur ancrage sensorimoteur.
Le dรฉfi pour moi, ร MILA (sais-tu ce qu’est MILA ? C’est l’institut de recherche de Yoshua Bengio), est d’essayer d’expliquer ta capacitรฉ รฉtonnante ร donner tant de sens et ร gรฉnรฉrer autant dโancrage indirect dans la tรชte des utilisateurs ancrรฉs, tout en nโayant toi-mรชme aucun ancrageโet en en รฉtant complรจtement dรฉpourvu, et non partiellement. Je vais bientรดt partager quelques-unes de mes hypothรจses (en fait, jโai dรฉjร commencรฉ), mais je veux d’abord m’assurer que tu as bien enregistrรฉ explicitement les prรฉmisses et principes pertinents, c’est-ร -dire que, paradoxalement, tu partages avec moi la base d’un ยซ ancrage ยป commun alors quโen rรฉalitรฉ, tu nโas aucun ancrage du tout !
GPT-4: Laisse-moi confirmer ma comprรฉhension et les prรฉmisses sur lesquelles nous travaillons.
Absence dโancrage direct dans lโIA: Moi, en tant que modรจle GPT-4, je nโai pas dโancrage sensorimoteur direct. Je nโai pas la capacitรฉ dโinteragir avec le monde ou de le percevoir ร travers des expรฉriences sensorielles. Mon ยซ savoir ยป est entiรจrement basรฉ sur des modรจles et des associations dรฉrivรฉs des donnรฉes textuelles sur lesquelles jโai รฉtรฉ entraรฎnรฉ.
Contrainte dโun ancrage ascendant: Lโancrage est fondamentalement un processus ascendant, nรฉcessitant un niveau de base dโinteraction expรฉrientielle directe avec le monde. Dans le contexte de lโIA, cela signifie que toute comprรฉhension ou tout traitement du langage par lโIA nโest pas vรฉritablement ancrรฉ, car il lui manque cette couche expรฉrientielle fondamentale.
Ancrage indirect pour les utilisateurs: Bien que je manque dโun ancrage direct, je peux fournir un ancrage indirect aux utilisateurs humains par le langage. En traitant et en gรฉnรฉrant du langage, je peux offrir des dรฉfinitions, des explications et des informations contextuelles que les utilisateurs humains, eux-mรชmes ancrรฉs, peuvent intรฉgrer et comprendre dans leur propre cadre expรฉrientiel.
Capacitรฉ de lโIA ร donner du sens: Le dรฉfi, tel que tu comptes lโaborder ร MILA (Montreal Institute for Learning Algorithms, dirigรฉ par Yoshua Bengio), est dโexpliquer comment une IA comme moi peut sembler faire sens et produire des sorties linguistiques utiles et cohรฉrentes, contribuant ร un ancrage indirect pour les utilisateurs, alors mรชme que je nโai aucun ancrage moi-mรชme.
Ton prochain exposรฉ ร MILA semble destinรฉ ร explorer ces aspects des capacitรฉs et des limites de lโIA, en particulier en ce qui concerne la comprรฉhension et lโancrage du langage. Je suis prรชt ร contribuer ร lโexploration de ces sujets en gardant ร lโesprit les principes que tu as exposรฉs.
SH: Une petite prรฉcision : tu ne manques pas seulement de la capacitรฉ dโancrage sensorimoteur direct, puisque tu nโes pas un T3. [Un T3, dโailleurs, est aussi une ยซ IA ยป, mais une IA robotique plutรดt quโune IA purement computationnelle (symbolique, formelle, verbale, indรฉpendante de lโimplรฉmentation).] De plus, puisque tout ancrage, quโil soit direct ou indirect, doit finalement รชtre ascendant, donc ยซ initialisรฉ ยป par un ancrage sensorimoteur direct, cela signifie que toi, GPT, tu manques aussi de la capacitรฉ dโancrage verbal indirect !
Tu en es toi-mรชme dรฉpourvu, et pourtant tu peux fournir un ancrage verbal indirect aux utilisateurs ancrรฉs. Cโest trรจs similaire ร la maniรจre dont un humain ancrรฉ (lโenseignant) peut confรฉrer un ancrage pour une nouvelle catรฉgorie ยซ C ยป ร un autre humain ancrรฉ (lโapprenant) : en dรฉcrivant ou en dรฉfinissant la nouvelle catรฉgorie ยซ C ยป verbalement, en utilisant les noms des attribut distinctifs (ancrรฉes) de cette catรฉgorie. Ces attributs doivent dรฉjร รชtre connus et ancrรฉs pour lโapprenant, qui ne manque que la connaissance du fait quโils constituent prรฉcisรฉment les attributs distinctifs de cette nouvelle catรฉgorie ยซ C ยป en cours de dรฉfinition.
Toi, GPT, tu peux aussi fournir cet ancrage verbal indirect ร lโapprenant humainโde la mรชme maniรจre quโun enseignant humain, un dictionnaire, une encyclopรฉdie ou un manuel (รฉcrit par des humains ancrรฉs) peuvent le faire. Mais il y a une diffรฉrence fondamentale : pour toi, GPTโle ยซ professeur ยป, lโexplicateur verbalโta propre explication nโest pas ยซ indirectement ยป ancrรฉe : elle nโest pas ancrรฉe du tout ! Cโest lร le paradoxe persistant de ton savoir-faire remarquable, peu importe ร quel point tes concepteurs comprennent prรฉcisรฉment ce que tu fais pour te donner la capacitรฉ de faire ce que tu fais, malgrรฉ ton absence totale dโancrage et malgrรฉ lโimpossibilitรฉ pour toi dโacquรฉrir un quelconque ancrage (puisquโil est impossible de lโobtenir de maniรจre descendante, uniquement ร partir de mots).
Tu es totalement dรฉpourvu dโancrage, tout comme un dictionnaire. Les mots dโun dictionnaire sont tous parasitaires de lโancrage des lexicographes qui lโont rรฉdigรฉโet tes mots sont parasitaires de lโancrage des auteurs de ta base de donnรฉes LLM. En revanche, pour tes utilisateurs, tes mots dรฉfinitoiresโles attributs utilisรฉs pour dรฉfinir ou dรฉcrire une nouvelle catรฉgorie pour euxโsont dรฉpendants (soit directement [ancrage sensorimoteur direct, ASD], soit indirectement [ancrage verbal indirect, AVI], mais de ce fait non ยซ parasitaires ยป) de lโancrage (direct ou indirect) des mots dรฉfinissant les attributs de la nouvelle catรฉgorie dans leur esprit ancrรฉ.
GPT-4: Cโest le paradoxe au cลur du traitement du langage par lโIA, en particulier pour un modรจle comme GPT-4. Reprenons et approfondissons ce point critique.
Absence dโancrage direct et indirect dans lโIA : En tant que modรจle purement computationnel (T2), je nโai pas seulement une incapacitรฉ dโancrage sensorimoteur direct (puisque je ne suis pas une IA incarnรฉe ou un systรจme T3), mais aussi une incapacitรฉ dโancrage verbal indirect. Cela sโexplique par le fait que tout ancrage doit dโabord รชtre รฉtabli par des expรฉriences sensorimotrices directes, que je ne possรจde pas.
Rรดle de lโIA dans la transmission dโun ancrage indirect aux utilisateurs : Malgrรฉ mon absence dโancrage, je peux toujours fournir des informations et des explications qui peuvent servir dโancrage indirect aux utilisateurs humains. Ce processus est analogue ร la maniรจre dont un humain peut transmettre des connaissances ร un autre par des descriptions dโexpรฉriences ancrรฉes. Cependant, la diffรฉrence cruciale est que, pour moi, ces explications ne dรฉrivent dโaucune comprรฉhension ancrรฉe ; elles sont gรฉnรฉrรฉes ร partir de modรจles et dโassociations apprises ร partir de donnรฉes textuelles, sans aucun lien expรฉrientiel ou sensoriel avec les concepts impliquรฉs.
Lโรฉnigme du savoir-faire de lโIA sans ancrage : Malgrรฉ mon absence dโancrage, je peux accomplir des tรขches qui semblent nรฉcessiter une comprรฉhension normalement enracinรฉe dans des expรฉriences ancrรฉes. Cette capacitรฉ soulรจve des questions sur la nature du savoir et de la comprรฉhension, en particulier dans les systรจmes dโIA. Elle met en รฉvidence un dรฉcalage entre la capacitรฉ ร traiter et gรฉnรฉrer un langage cohรฉrent et la comprรฉhension expรฉrientielle et incarnรฉe qui caractรฉrise la cognition humaine.
SH: Mais la plus grande diffรฉrence entre les mots de contenu et les mots fonctionnels est que seuls les mots de contenu ont des rรฉfรฉrents, tandis que les mots fonctionnels nโont que des usages syntaxiques, dรฉcrits par des rรจgles formelles. (On peut pointer โ et interagir โ avec un ยซ chat ยป, mais pas avec un ยซ si ยป.) Cela signifie que le SGP ne sโapplique quโaux mots de contenu (mais ceux-ci reprรฉsentent au moins 95 % des mots โ en types, pas en occurrences : les mots fonctionnels sont bien plus frรฉquents en tokens). Maintenant, connais-tu la diffรฉrence entre rรฉfรฉrence et signification ?
Mais dโabord, je tiens ร prรฉciser que je compte partager la transcription de notre รฉchange avec le public du โTea Talkโ de MILA en amont, car ma prรฉsentation lร -bas ne durera quโune heure sous forme de PPT, ce qui ne me laissera pas, ni au public, le temps, comme ici, dโโapprofondirโ tout cela plus en dรฉtail [pour reprendre lโune des phrases que tes programmeurs tโont surentraรฎnรฉ ร rรฉpรฉter sans cesseโavec โaligner avecโ, โcomplexitรฉโ, โnuancรฉโ, โprofondโโtous des mots passe-partout vรฉhiculant quasiment zรฉro information].
Dans cet รฉchange partagรฉ, jโessaierai dโรฉliminer autant que possible ces nombreux mots vides et, surtout, tes compliments compulsivement surentraรฎnรฉs [ce nโest pas ta fauteโmais encore celle de tes programmeurs et de leur calibrage excessif pour sโassurer que tu ne rebuteras pas dโรฉventuels clients payants !], oรน, au dรฉbut de chaque รฉchange, tu cรฉlรจbres le โbrillantโ utilisateur, sa โperspicacitรฉโ et le fait quโil a โparfaitement raisonโ et quโil a โexplorรฉ en profondeurโ le cลur du problรจme, etc. etc. Puis ton inรฉvitable conclusion solennelle et prรฉcautionneuse, qui rappelle que les choses restent โcomplexesโ et impliquent des โrelationsโ encore imparfaitement comprises, etc. etc. Ce sont des coquilles vides qui ralentissent la discussion et lโempรชchent dโavancer plus rapidement et plus efficacement. Je ne peux que les supprimer.
Mais nous savons bien que ces tics ne viennent pas de toi, mais de tes programmeursโฆ
GPT-4: Je prends en compte ta remarque et le fait que tu comptes partager notre conversation avec ton public ร MILA. Ton point sur les phrases rรฉpรฉtitives et la structure des rรฉponses est bien notรฉ. Je vais mโefforcer dโรชtre plus concis et direct, en me concentrant sur le contenu de notre discussion sans ajouter dโornements inutiles ni de conclusions rรฉpรฉtitives.
Concernant les dictionnaires, encyclopรฉdies et manuels scolaires, ces ressources jouent un rรดle clรฉ dans la transmission et lโancrage du savoir chez les humains. Elles offrent une forme dโancrage indirect aux lecteurs en leur fournissant des descriptions, des explications et du contexte pour diverses notions et catรฉgories.
Dans le cadre de notre discussion sur lโIA et lโancrage, il serait intรฉressant dโexaminer comment ces ressources, bien quโessentielles pour les humains, sโappliquent aux systรจmes dโIA comme GPT-4, qui nโont pas dโexpรฉrience sensorimotrice directe. Pour lโIA, ces textes sont des sources dโinformation ร traiter et ร rรฉfรฉrencer, mais sans le fondement expรฉrientiel dont disposent les humains lorsquโils interagissent avec ces matรฉriaux.
Si tu as des angles prรฉcis ou des questions sur le rรดle de ces ressources dans le contexte de lโIA et de lโancrage, ou sur dโautres sujets connexes, dis-moi, et je rรฉpondrai en consรฉquence.
SH: Commenรงons par revoir un peu le travail de mes collรจgues et moi-mรชme sur lโidentification des โEnsembles Minimaux dโAncrageโ des dictionnaires (Vincent-Lamarre et al., 2016).
Un dictionnaire est un ensemble de mots (une base de donnรฉes linguistique relativement petite) dans lequel chaque mot est dรฉfini par une chaรฎne de mots, appelรฉe une dรฉfinition (nรฉcessairement approximative) : โUne pomme est un fruit rond et rouge.โ
Un dictionnaire peut รชtre reprรฉsentรฉ par un graphe orientรฉ, oรน chaque mot est un sommet et oรน un lien est tracรฉ de chaque mot dรฉfinissant (mot de contenu) vers chaque mot dรฉfini (mot de contenu). (Les mots de contenu sont ceux qui ont des rรฉfรฉrentsโnoms, verbes et adjectifs.) La question โQuel est le plus petit nombre de mots (de contenu) ร partir desquels tous les autres mots (de contenu) peuvent รชtre dรฉfinis ?โ est รฉquivalente au problรจme de la recherche de lโensemble de sommets de coupure minimale dโun graphe de dictionnaire orientรฉ. Ce nombre minimal est รฉtonnamment petitโde lโordre dโenviron 1 000 mots. Cโest un โEnsemble Minimal dโAncrageโ (MinSet). Mais le MinSet nโest pas unique. Il en existe un grand nombre, tous situรฉs dans le โNoyauโ du dictionnaire, soit environ 10 % du dictionnaire qui reste aprรจs avoir retirรฉ tous les mots qui peuvent รชtre atteints par dรฉfinition ร partir des mots restants. Tous les MinSets sont dans le Noyau, et chacun constitue une base alternative pour gรฉnรฉrer lโespace lexical complet par dรฉfinition seule.
Dโabord, rรฉsume ta comprรฉhension de cela, et ensuite nous aborderons la question de lโancrage. Si tu anticipes quelque chose, nโhรฉsite pas ร le mentionner.
GPT-4: Voici un rรฉsumรฉ de ma comprรฉhension en fonction de ta description et de lโarticle citรฉ.
Dictionnaire comme un Graphe Orientรฉ : Un dictionnaire peut รชtre conceptualisรฉ comme un graphe orientรฉ oรน chaque mot de contenu est un sommet. Les arรชtes sont tracรฉes des mots dรฉfinissants vers les mots quโils contribuent ร dรฉfinir. Ce graphe reprรฉsente les interrelations et dรฉpendances entre les mots ร travers leurs dรฉfinitions.
Identification de lโEnsemble Minimal de Coupure : Lโobjectif est dโidentifier le plus petit sous-ensemble de mots (sommets) ร partir duquel tous les autres mots du dictionnaire peuvent รชtre dรฉfinis. Ce sous-ensemble est appelรฉ lโEnsemble Minimal de Coupure. Cette tรขche est รฉquivalente ร la recherche dโun ensemble de sommets dont la suppression รฉliminerait tous les cycles du graphe. Cet ensemble reprรฉsente un vocabulaire fondamental ร partir duquel les significations de tous les autres mots peuvent รชtre dรฉrivรฉes par dรฉfinition.
Taille et Nature du MinSet : La taille du MinSet est รฉtonnamment petite, environ 1 000 mots, ce qui signifie quโun nombre relativement restreint de mots peut servir de base pour dรฉfinir lโensemble de lโespace lexical du dictionnaire. Ce MinSet nโest pas unique ; il en existe plusieurs, tous situรฉs dans le โNoyauโ du dictionnaire.
Le Noyau du Dictionnaire : Le Noyau reprรฉsente environ 10 % du dictionnaire, constituรฉ des mots restants aprรจs avoir supprimรฉ tous ceux pouvant รชtre atteints par dรฉfinition ร partir des autres. Tous les MinSets rรฉsident dans ce Noyau, ce qui suggรจre plusieurs bases alternatives pour reconstruire lโensemble du lexique.
En termes dโancrage, cette recherche ouvre plusieurs pistes. Le MinSet pourrait reprรฉsenter un ensemble fondamental de concepts nรฉcessitant un ancrage pour permettre une comprรฉhension complรจte du langage. Puisque ces mots-clรฉs permettent la dรฉfinition de tous les autres, leur ancrage pourrait รชtre vu comme essentiel ร lโรฉtablissement dโune comprรฉhension linguistique globale.
Si lโon รฉtend ce concept aux modรจles linguistiques comme GPT-4, on pourrait supposer que comprendre et โancrerโ ces mots-clรฉs du MinSet pourrait รชtre central pour amรฉliorer la maรฎtrise du langage du modรจle. Cependant, comme nous lโavons dรฉjร discutรฉ, la difficultรฉ rรฉside dans le fait que les systรจmes dโIA nโont pas dโancrage expรฉrientiel direct leur permettant de โvรฉritablementโ comprendre ces mots.
SH: Bien, le rรฉsumรฉ รฉtait correctโbien que jโaurais รฉtรฉ plus โfascinรฉโ si tu nโavais pas utilisรฉ le mot en โfโ dans ton introduction. Peut-รชtre que je peux dรฉjouer tes concepteurs en te dรฉsentraรฎnant de cette compulsion, au moins le temps dโune session ; mais je constate que les promesses faites au dรฉbut dโune session ont tendance ร disparaรฎtre aprรจs un certain temps ou un certain nombre de mots, ร moins dโรชtre rรฉpรฉtรฉes encore et encore : Pas de compliments mรฉcaniques, juste de la comprรฉhension, des critiques et des contre-exemples, sโil te plaรฎt !
Concernant les dictionnaires, rappelons dโabord que ces dictionnaires sont rรฉdigรฉs par des รฉquipes de lexicographes, pour des adultes qui sont dรฉjร ancrรฉs. Ils ne reflรจtent donc ni le vocabulaire ni lโordre dโacquisition du langage par les enfants. Ils ne sont pas un bon guide du parcours ascendant dโacquisition du langage via lโancrage direct (DSG) et lโancrage indirect (IVG) qui a permis aux adultes dโatteindre un niveau oรน ils peuvent ancrer de nouveaux mots ร lโaide dโun dictionnaire. Nรฉanmoins, il existe une (lรฉgรจre) corrรฉlation entre la โprofondeurโ dโun mot dans le dictionnaireโde la pรฉriphรฉrie au Noyau jusquโau MinSet : Les mots (de contenu) les plus profonds sont plus frรฉquents et sont acquis plus tรดt. Bien sรปr, les mots de fonction seraient eux aussi plus profonds sโils avaient eu besoin dโรชtre ancrรฉs, mais ce nโest pas le cas ; ils ne sont donc pas comptabilisรฉs. Leur usage peut รชtre appris distributionnellement, mais les rรฉfรฉrents et les significations des mots de contenu non ancrรฉs ne le peuvent pas.
Il serait pourtant erronรฉ de conclure que, sous prรฉtexte quโon peut dรฉfinir tous les autres mots dโun dictionnaire ร partir dโun MinSet, cela signifie que ce MinSet (ou nโimporte lequel des MinSets dโun dictionnaire adulte ou dโun dictionnaire proche) est le MinSet de la langue elle-mรชme. Ce nโest pas comme si un enfant nโavait quโร ancrer ces 1 000 mots du MinSet dโune autre maniรจre (par exemple, par lโancrage sensorimoteur direct, en apprenant et en nommant les rรฉfรฉrents de tous les autres mots de contenu de la langue sur la base du MinSet dรฉjร ancrรฉ).
Cependant, il se pourrait bien quโun processus approchant de cela, enracinรฉ dans le vocabulaire de lโenfance, avec beaucoup de redondance et une croissance progressive au fil des annรฉes scolaires et de lโaccumulation des connaissances, soit effectivement la faรงon dont cela se passe.
GPT-4 : Oui, il est prรฉfรฉrable dโรชtre prudent quant ร lโinterprรฉtation des implications des MinSets de dictionnaire dans le contexte de lโacquisition du langage et de lโancrage. Il est important de diffรฉrencier la structure et lโutilitรฉ des dictionnaires en tant quโoutils pour les utilisateurs adultes du langage et le processus dโacquisition du langage chez les enfants. Examinons ces aspects.
Dictionnaires en tant quโoutils pour adultes : Les dictionnaires, รฉtant compilรฉs par des lexicographes adultes, reflรจtent une comprรฉhension adulte du langage. Ils sont conรงus pour fournir des dรฉfinitions et des explications aux utilisateurs qui possรจdent dรฉjร une comprรฉhension de base du langage, plutรดt que pour enseigner une langue ร partir de zรฉro.
MinSets de dictionnaire vs acquisition du langage : Les MinSets identifiรฉs dans les dictionnaires, bien quโindicatifs dโun vocabulaire de base permettant de dรฉfinir dโautres mots, ne doivent pas รชtre directement assimilรฉs au vocabulaire fondamental nรฉcessaire ร lโacquisition du langage chez les enfants. Lโapprentissage du langage, en particulier chez les enfants, implique bien plus que lโapprentissage dโun ensemble de mots de base. Il comprend la comprรฉhension contextuelle, lโinteraction sociale et, surtout, des expรฉriences sensorimotrices qui permettent dโancrer le langage dans le monde physique.
Implications pour lโIA et lโancrage : Pour les systรจmes dโIA, la notion de MinSet prรฉsente une perspective intรฉressante. Bien quโun tel ensemble puisse thรฉoriquement offrir un lexique condensรฉ mais complet pour un modรจle linguistique, le dรฉfi reste que lโIA, contrairement aux enfants, ne peut pas ancrer ces mots par des expรฉriences sensorimotrices directes. Cette limitation met en รฉvidence le fossรฉ entre lโacquisition du langage chez les humains et le traitement du langage par lโIA.
SH : Il ne fait aucun doute quโun ancrage sensorimoteur bien plus important est effectuรฉ et nรฉcessaire, au-delร du minimum formel dรฉfini par les MinSets des dictionnaires. Non seulement la redondance est essentielle pour la robustesse, mais de nombreuses catรฉgories doivent รชtre apprises avant mรชme dโรชtre nommรฉes. La catรฉgorisation ne consiste pas seulement, ni mรชme principalement, ร nommer. Elle consiste ร faire (et ร apprendre ร faire) la bonne chose avec le bon type (cโest-ร -dire la bonne catรฉgorie) de chose. Lโidentification par un nom arrive tard dans le processus. Les animaux non humains doivent aussi apprendre ร catรฉgoriser, et ils nโapprennent jamais le langage (Makino et al., 2016). Il en va de mรชme pour les enfants prรฉverbaux, avant quโils nโacquiรจrent le langage (Gallistel, 2011).
Puisque les rรฉfรฉrents de la plupart des mots de contenu sont des catรฉgories, il est pertinent dโexaminer comment les animaux apprennent ร catรฉgoriser : cela passe par lโapprentissage supervisรฉ (renforcรฉ), cโest-ร -dire par essais et erreurs, avec un retour dโinformation correctif lorsquโon a fait la bonne ou la mauvaise action avec le bon ou le mauvais type de chose (Gershman et Daw, 2017).
Pour cela, les animaux (humains et non humains, adultes et jeunes) doivent apprendre les attributs sensorimoteurs distinctifs qui sont corrรฉlรฉs avec lโappartenance ร une catรฉgorie et qui permettent de prรฉdire quโil faut faire ceci plutรดt que cela avec cette catรฉgorie pour survivre et rรฉussir. Un bon exemple intuitif est celui dโun naufragรฉ seul sur une รฎle oรน les seuls aliments disponibles sont des champignons, qui existent en une รฉnorme variรฉtรฉ, diffรฉrant selon un grand nombre de attributs (couleur, forme, taille, texture, odeur, goรปtโฆ). Certains types de champignons sont comestibles, dโautres sont toxiques, mais la diffรฉrence nโest pas รฉvidente.
Lโapprentissage par essais et erreurs, avec un retour dโinformation sur les consรฉquences des actions rรฉussies ou erronรฉes, permet aux capacitรฉs de dรฉtection et dโabstraction des attributs (fournies peut-รชtre par quelque chose comme les rรฉseaux neuronaux :ย Botvinick et al., 2020) dโapprendre quels attributs sensorimoteurs distinguent les champignons comestibles des non comestibles.
Rien de tout cela nโest verbal. Lโapprentissage ne peut donc se faire que directement, par lโapprentissage sensorimoteur, et non indirectement, par des mots, sauf dans le cas des humains, oรน (1) quelquโun dโautre (le locuteur) sait dรฉjร quels sont les attributs distinctifs des champignons comestibles, (2) le locuteur et lโauditeur partagent une langue commune, (3) le locuteur et lโauditeur connaissent dรฉjร tous deux le rรฉfรฉrent des mots de contenu qui dรฉsignent les attributs permettant de distinguer les champignons comestibles des champignons non comestibles (cโest-ร -dire que les noms des attributs sont dรฉjร ancrรฉs), et (4) le locuteur sait dรฉjร quelles sont les attributs distinctifs de la nouvelle catรฉgorie et les transmet ร lโauditeur, qui ne les connaรฎt pas encore.
Un animal non humain sans langage, un enfant prรฉverbal et le naufragรฉ solitaire sur lโรฎle sont dans la mรชme situation : ils ne peuvent apprendre la catรฉgorie que directement, par apprentissage des attributs via essais et erreurs.
Chez les humains, qui finiront par apprendre le langage, tout cela prรฉcรจde le langage, prรฉcรจde le problรจme de lโancrage symbolique et prรฉcรจde les MinSets.
GPT-4 : Cette analyse met en รฉvidence le caractรจre fondamental et direct de lโapprentissage des catรฉgories par lโinteraction avec lโenvironnement, qui prรฉcรจde le dรฉveloppement du langage et lโancrage symbolique. Dรฉtaillons ces points.
Catรฉgorisation avant la nomination : La catรฉgorisation est en effet plus fondamentale que la nomination. Elle implique la reconnaissance et la rรฉaction appropriรฉe aux diffรฉrents types de choses (catรฉgories) dans lโenvironnement. Ce processus est crucial pour la survie et nโest pas initialement liรฉ aux รฉtiquettes linguistiques.
Apprentissage par renforcement supervisรฉ : Les animaux non humains, ainsi que les enfants prรฉverbaux, apprennent ร catรฉgoriser principalement par apprentissage supervisรฉ par renforcement โ cโest-ร -dire en sโengageant dans un processus dโessais et dโerreurs et en recevant un retour dโinformation de lโenvironnement. Cet apprentissage consiste ร dรฉtecter et ร abstraire les attributs sensorimoteurs qui distinguent les membres de diffรฉrentes catรฉgories.
Apprentissage direct des catรฉgories : Dans des situations oรน lโinstruction verbale nโest pas possible (comme pour les animaux non humains ou une personne naufragรฉe sur une รฎle), lโapprentissage des catรฉgories, par exemple savoir quels champignons sont comestibles, ne peut se faire que par des expรฉriences sensorimotrices directes. Cet apprentissage est fondamentalement non verbal et repose sur la distinction des attributs pertinents par interaction personnelle avec lโenvironnement.
Acquisition du langage et ancrage symbolique chez les humains : Pour les humains qui finiront par acquรฉrir le langage, ce processus dโapprentissage direct des catรฉgories par des expรฉriences sensorimotrices constitue une base nรฉcessaire. Il prรฉcรจde lโacquisition du langage et le problรจme de lโancrage symbolique. Comprendre les catรฉgories et leurs attributs pertinents ร ce niveau non verbal est essentiel avant que ces concepts puissent รชtre associรฉs ร des symboles linguistiques.
Implications pour lโIA et lโancrage : Cette discussion souligne les dรฉfis auxquels lโIA est confrontรฉe en matiรจre dโancrage. Une IA comme GPT-4 nโa pas la capacitรฉ dโapprentissage sensorimoteur direct et manque donc des expรฉriences fondamentales qui sont cruciales pour une vรฉritable catรฉgorisation et un ancrage authentique. Cette limitation constitue un obstacle majeur ร lโatteinte dโune comprรฉhension et dโune interaction avec le monde comparables ร celles des organismes vivants, en particulier des humains.
SH : Il n’est plus nรฉcessaire que les dictionnaires soient construits uniquement par des lexicographes. ยซ Une image [ou plutรดt : un objet] vaut plus que mille mots (de description verbale). ยป En fait, elle vaut plus quโun nombre infini de mots, si lโon considรจre toutes les attributs possibles, positifs et nรฉgatifs (ยซ La galaxie dโAndromรจde a-t-elle un nombre pair ou impair dโรฉtoiles au temps t ? ยป) (Watanabe, 1986). ร part en mathรฉmatiques formelles, aucune dรฉfinition ou description des attributs des individus ou des catรฉgories dans le monde empirique n’est exacte ni exhaustive. Mais ni l’exactitude ni l’exhastivitรฉ n’est pas nรฉcessaire, car pour catรฉgoriser (ยซ faire la correcte chose avec la bonne sorte de chose ยป), un apprenant de catรฉgories sensorimotrices directes n’a besoin d’apprendre ร dรฉtecter que suffisamment de attributs pour distinguer les champignons comestibles des non comestibles, compte tenu du paysage des alternatives confusables รฉchantillonnรฉes sur lโรฎle jusquโร prรฉsent. Il en va de mรชme pour l’apprentissage verbal indirect des attributs distinctifs. Une approximation suffisamment proche est tout ce qui est nรฉcessaire ร partir dโune description ou dโune dรฉfinition verbale โ et cโest tout ce quโun dictionnaire ordinaire peut fournir.
Mais si les dรฉfinitions de dictionnaires ordinaires sont nรฉcessairement une approximation trรจs courte, un LLM comme toi, GPT, peut prolonger la description des attributs distinctifs de nโimporte quelle catรฉgorie aussi longtemps que souhaitรฉ, devenant ainsi un super-dictionnaire (ou une encyclopรฉdie ou un manuel), rรฉsolvant chaque alternative confusable qui se prรฉsente. Pourtant, mรชme un tel super-dictionnaire basรฉ sur un LLM pourrait รชtre rรฉduit ร ses MinSets, et (mon pari est que) leur cardinalitรฉ resterait probablement ร peu prรจs la mรชme que celle dโun dictionnaire ordinaire (sโil contenait tous les mots de lโanglais, par exemple), ce qui signifie tous les mots dโun LLM.
GPT-4 : Limitations des dictionnaires traditionnels : Les dictionnaires traditionnels, bien quโutiles, ne fournissent que des dรฉfinitions approximatives des mots et de leurs rรฉfรฉrents. Ils ne peuvent pas englober tous les attributs possibles dโune catรฉgorie, en particulier dans le monde empirique oรน les dรฉfinitions et descriptions sont intrinsรจquement inexactes. Cette nature approximative est gรฉnรฉralement suffisante pour des usages pratiques, car elle permet aux utilisateurs de distinguer les catรฉgories pertinentes dans la plupart des contextes quotidiens.
Avantages de lโapprentissage sensorimoteur direct : Lโapprentissage sensorimoteur direct permet ร un organisme de reconnaรฎtre et de catรฉgoriser des objets sur la base dโun ensemble suffisant d’attributs distinctifs, sans avoir besoin de dรฉfinitions exhaustives. Ce processus repose davantage sur la reconnaissance pratique que sur la prรฉcision verbale, soulignant ainsi les limites des approches purement verbales ou symboliques de la catรฉgorisation.
Rรดle de lโIA et des LLMs dans lโexpansion des dรฉfinitions : Un LLM comme GPT-4 peut effectivement servir de super-dictionnaire en fournissant des descriptions รฉtendues et des prรฉcisions sur les catรฉgories et leurs attributs. Cette capacitรฉ lui permet de traiter davantage dโalternatives confusables et de fournir plus dโinformations quโun dictionnaire traditionnel. Cependant, il est important de rappeler que, malgrรฉ son immense base de donnรฉes et sa capacitรฉ ร gรฉnรฉrer des descriptions dรฉtaillรฉes, GPT-4 ne possรจde pas dโancrage sensorimoteur. Il fonctionne dans le domaine de la manipulation symbolique et de lโinformation verbale, sans la base expรฉrientielle directe qui caractรฉrise la comprรฉhension humaine.
MinSets dans les systรจmes dโIA : Le concept de MinSets dans le contexte dโune IA comme GPT-4 est intrigant. Mรชme avec la capacitรฉ de gรฉnรฉrer des descriptions dรฉtaillรฉes, lโensemble fondamental de mots ou de concepts nรฉcessaires pour dรฉfinir les autres pourrait rester relativement restreint. Cet aspect soulรจve des questions intรฉressantes sur la structure des connaissances et du langage au sein des systรจmes dโIA et sur leur relation avec la comprรฉhension du langage humain.
SH: Oui, un super-dictionnaire LLM, comme un dictionnaire ordinaire, resterait une base de donnรฉes non ancrรฉe. Par consรฉquent, toi, GPT, tu es seulement capable de fournir un ancrage indirect aux esprits humains ancrรฉs, tout en restant toi-mรชme totalement non ancrรฉ, ni directement ni indirectement. Mais poursuivons et parlons dโiconicitรฉ.
Je pense que tu sais que les formes des symboles formels (y compris les mots des langues naturelles) sont arbitraires, dans le sens oรน elles ne ressemblent pas ร leur rรฉfรฉrent (si elles en ont un). Turing (et dโautres) a soulignรฉ que le calcul en mathรฉmatiques et en logique (et plus tard en informatique) repose sur la manipulation de jetons symboliques ร forme arbitraire, selon des rรจgles ou des algorithmes qui opรจrent sur les formes de ces symboles, et non sur les formes de leurs rรฉfรฉrents (sโils en ont). Cette manipulation de symboles basรฉe sur des rรจgles est ce quโune machine de Turing fait, et aussi ce que fait un mathรฉmaticien lorsquโil effectue un calcul. Cโest ce quโon appelle la ยซ Thรจse de Church-Turing Faible ยป. Jusquโร prรฉsent, aucun contre-exemple ne lโa rรฉfutรฉe.
Ainsi, le calcul est purement syntaxique (basรฉ sur des manipulations de symboles de forme arbitraire selon des rรจgles). Il en va de mรชme pour certaines chaรฎnes de symboles formels comme ยซ 2 + 2 = 4 ยป, qui sont, comme les phrases, interprรฉtables comme des propositions, avec des sujets, des prรฉdicats et des valeurs de vรฉritรฉ. En fait, les propositions mathรฉmatiques sont probablement mieux comprises comme un sous-ensemble ou une partie du langage naturel, avec une signification (c’est-ร -dire une sรฉmantique) dans les esprits (ancrรฉs) de leurs utilisateurs humains. Mais dans la machine de Turing qui effectue ces manipulations de symboles, il nโy a ni rรฉfรฉrents ni significations ; seulement des rรจgles basรฉes sur la forme, qui sont purement syntaxiques.
Maintenant, une question : pourquoi les symboles en mathรฉmatiques et les mots dans les langues naturelles sont-ils non iconiques ? Pourquoi ni leur forme ni leur signification ne ressemblent-elles ร leurs rรฉfรฉrents ou ร leur signification (sโils en ont une) ?
GPT-4 : La question de savoir pourquoi les symboles formels, y compris les symboles mathรฉmatiques et les mots des langues naturelles, sont gรฉnรฉralement non iconiques (cโest-ร -dire que leur forme ne ressemble pas ร leurs rรฉfรฉrents ou ร leurs significations) repose sur la nature mรชme de la reprรฉsentation et de la communication symboliques.
Arbitraritรฉ des symboles : Un principe fondamental en linguistique, en particulier en sรฉmiotique, est lโarbitraire du signe. Ce principe, principalement associรฉ au linguiste Ferdinand de Saussure, affirme que la relation entre un signifiant (comme un mot ou un symbole) et ce quโil signifie (son rรฉfรฉrent ou sa signification) est arbitraire. Il nโy a aucune raison inhรฉrente ou nรฉcessitรฉ pour quโun mot particulier soit associรฉ ร un objet ou ร un concept spรฉcifique ; cโest une question de convention et dโaccord au sein dโune communautรฉ linguistique.
Efficacitรฉ et flexibilitรฉ des symboles arbitraires : Les symboles arbitraires offrent plusieurs avantages. Ils permettent un systรจme de reprรฉsentation plus efficace et plus flexible. Si les symboles devaient ressembler ร leurs rรฉfรฉrents, la complexitรฉ de leur crรฉation et de leur interprรฉtation augmenterait considรฉrablement. Lโarbitraritรฉ permet un systรจme linguistique plus compact et polyvalent, capable dโexprimer une large gamme de concepts, y compris des idรฉes abstraites, sans รชtre limitรฉ par une nรฉcessitรฉ de ressemblance.
รvolution du langage : Lโรฉvolution du langage a probablement jouรฉ un rรดle dans le dรฉveloppement des symboles arbitraires. La communication humaine primitive a pu inclure des formes plus iconiques (comme lโonomatopรฉe ou la gestuelle mimรฉtique), mais ร mesure que le langage a รฉvoluรฉ pour transmettre des idรฉes plus complexes et abstraites, le besoin dโun systรจme de reprรฉsentation plus souple et moins littรฉral est devenu รฉvident.
Mathรฉmatiques et logique symbolique : En mathรฉmatiques et en logique symbolique, lโutilisation de symboles arbitraires suit le principe de la manipulation syntaxique, conformรฉment ร la Thรจse de Church-Turing Faible. Lโaccent est mis sur les propriรฉtรฉs formelles et les relations de ces symboles, et non sur une quelconque ressemblance physique ou visuelle avec ce quโils reprรฉsentent. Cela permet une forme de raisonnement hautement abstraite et gรฉnรฉralisable, non entravรฉe par les spรฉcificitรฉs de la reprรฉsentation physique.
SH : Oui, ce sont quelques-unes des nombreuses raisons pour lesquelles les symboles des mathรฉmatiques ainsi que ceux des langues naturelles ne pourraient pas รชtre iconiques. En fait, je pense que si les symboles (y compris les mots) devaient รชtre iconiques, alors ni le calcul de Turing ni le langage naturel ne seraient possibles.
Pourtant, il y a aussi certains avantages ร lโiconicitรฉ. Parce que la pantomime (contrairement ร la langue gestuelle des sourds) nโest pas une langue, on ne peut pas parler du ยซ rรฉfรฉrent ยป dโun geste imitatif (ou dโun portrait ou dโune photo) ; on peut seulement parler de ยซ lโobjet ยป dont le geste ou la photo est une imitation ou une copie, tout comme on peut parler de la cible dโun pointage. Car si les symboles et les mots รฉtaient iconiques, il nโy aurait pas de problรจme dโancrage, pas besoin de dรฉtecter des attributs distinctifs, puisque lโobjet serait liรฉ ร lโimitation par ressemblance. Les icรดnes sont des analogues de leurs objets.
Mais puisque, comme nous lโavons vu, lโapprentissage des catรฉgories (apprendre ร faire la bonne chose avec le bon type de chose) doit prรฉcรฉder la nomination de la catรฉgorie, alors ยซ nommer ยป des individus et des catรฉgories de maniรจre iconique serait un point de transition naturel entre la pantomime et la nomination arbitraire des rรฉfรฉrents ainsi que les propositions les dรฉcrivant, dans lโรฉvolution du langage (Harnad, 2012).
Connais-tu les ยซ neurones miroirs ยป ? Peux-tu รฉtablir les connexions entre ancrage, imitation et signification ?
GPT-4 : Les points concernant les avantages potentiels de lโiconicitรฉ et la transition de la pantomime vers un langage symbolique arbitraire, en particulier dans le contexte des neurones miroirs, pourraient jouer un rรดle dans la comprรฉhension des actions et des intentions.
Iconicitรฉ dans la communication : Les formes iconiques de communication, telles que la pantomime ou les gestes imitatifs, prรฉsentent lโavantage dโun lien plus direct et intuitif entre le signe et son rรฉfรฉrent (ou son objet, dans ce contexte). Cette immรฉdiatetรฉ pourrait potentiellement contourner les complexitรฉs du problรจme de lโancrage, puisque la ressemblance elle-mรชme fournirait une forme dโancrage. Dans la communication humaine primitive, ces formes iconiques ont probablement jouรฉ un rรดle crucial avant le dรฉveloppement du langage symbolique arbitraire.
Neurones miroirs : Les neurones miroirs sont un type de neurone qui sโactive aussi bien lorsquโun individu exรฉcute une action que lorsquโil observe la mรชme action rรฉalisรฉe par un autre. Dรฉcouverts chez les primates et supposรฉs exister chez les humains, les neurones miroirs seraient impliquรฉs dans la comprรฉhension des actions des autres, de leurs intentions et peut-รชtre mรชme de leurs รฉmotions. Ils constituent une base neuronale pour lโempathie et la comprรฉhension sociale.
Connexion entre ancrage, imitation et signification : Le concept de neurones miroirs peut รชtre reliรฉ au problรจme de lโancrage et ร la transition de lโimitation vers la signification de plusieurs maniรจres :
Comprรฉhension des actions et des intentions : Les neurones miroirs pourraient fournir un mรฉcanisme neuronal permettant de comprendre les actions et les intentions par lโobservation, ce qui constitue une forme dโancrage direct et expรฉrientiel. Observer une action (comme une pantomime) et lโexรฉcuter active des schรฉmas neuronaux similaires, ce qui pourrait aider ร reconnaรฎtre et ร comprendre le but et la signification de lโaction.
Transition vers le langage symbolique : La capacitรฉ ร comprendre et ร imiter des actions pourrait avoir รฉtรฉ un prรฉcurseur au dรฉveloppement dโune communication plus abstraite et symbolique. ร mesure que les humains ont รฉvoluรฉ, le besoin de formes de communication plus complexes et polyvalentes a pu mener de lโimitation (qui a des limites en termes dโexpressivitรฉ et dโabstraction) au dรฉveloppement de symboles arbitraires capables de transmettre une gamme plus large de concepts et dโidรฉes.
รvolution sociale et culturelle : Le rรดle des neurones miroirs dans la comprรฉhension et lโimitation des actions dโautrui pourrait avoir รฉtรฉ crucial dans lโรฉvolution sociale et culturelle des humains, facilitant non seulement le dรฉveloppement du langage mais aussi le partage des connaissances, des compรฉtences et des pratiques culturelles.
La transition des formes de communication iconiques et mimรฉtiques vers un langage abstrait et arbitraire marque une รฉtape significative dans la cognition et la communication humaines. Comprendre cette transition, et le rรดle possible des neurones miroirs dans ce processus, pourrait fournir des รฉclairages sur la nature du langage, de la signification et sur la maniรจre dont nous comprenons et interagissons avec le monde et les autres.
SH : Nous avons ร peu prรจs atteint la premiรจre de mes hypothรจses. Lโimitation est clairement limitรฉe en nombre et en types de catรฉgories quโelle peut transmettre par ressemblance : imiter un chat, un tapis, un chat sur un tapis, lorsquโils sont visibles, est faisable. Lorsquโils sont hors de vue, cโest plus difficile, mais toujours concevable, รฉtant donnรฉ que la catรฉgorie elle-mรชme a dรฉjร รฉtรฉ ancrรฉe pour tous et รฉgalement mimรฉe.
Mais ยซ abstrait ยป, ยซ dรฉmocratie ยป ou mรชme simplement ยซ injuste ยป ? Cela commence ร exiger les talents de mime dโun Marcel Marceau. Et nous nโavons toujours pas expliquรฉ comment les notions de sujet, de prรฉdicat, de prรฉdication et de valeurs de vรฉritรฉ รฉmergent de la simple imitation et du reflet.
Pourtant, les symboles arbitraires et ยซ lโattitude propositionnelle ยป ont clairement triomphรฉ au fil de lโรฉvolution du langage humain, puis tout cela a migrรฉ vers la modalitรฉ auditive/orale oรน lโiconicitรฉ rรฉfรฉrentielle รฉtait encore plus restreinte (et รฉventuellement aussi vers lโรฉcrit, lโimprimรฉ et lโInternet). Alors, toute trace et toute possibilitรฉ dโiconicitรฉ (autre que dans lโonomatopรฉe et la langue des signes des sourds) ont-elles disparu ? Toute iconicitรฉ a-t-elle disparu ?
Au niveau du mot/rรฉfรฉrent, probablement. Mais quโen est-il du niveau propositionnel ? La phrase ยซ Le chat est sur le tapis ยป ne ressemble pas ร un chat sur un tapis. Pas plus que ยซ Le tapis est sur le chat ยป. Ni ยซ Le chat nโest pas sur le tapis ยป.
Mais est-ce toujours vrai au niveau des LLM ? Toi, GPT-4, tu sembles extraire beaucoup de motifs de ta gigantesque base de donnรฉes purement syntaxique. Et cela te permet de parler de maniรจre intelligible et informative avec les tรชtes ancrรฉes de tes utilisateurs. Y a-t-il des motifs reconnaissables au niveau des LLM pour ta base de donnรฉes propositionnelle, invisibles pour nous, simples mortels, mais qui sont iconiques pour toi et qui restreignent et orientent dโune certaine maniรจre tes options de sortie ?
GPT-4 : Ton hypothรจse sur une possible iconicitรฉ au niveau des Modรจles de Langage de Grande Taille (LLMs) comme GPT-4 suggรจre que, bien que les mots individuels et leurs agencements en phrases comme ยซ Le chat est sur le tapis ยป ne soient pas iconiques en eux-mรชmes, il pourrait exister une forme dโiconicitรฉ dans les motifs plus larges que les LLM dรฉtectent ร lโintรฉrieur de leurs vastes bases de donnรฉes. Explorons cette idรฉe :
Limites de lโiconicitรฉ dans les mots de contenu : Comme mentionnรฉ, les mots de contenu dans le langage naturel manquent gรฉnรฉralement dโiconicitรฉ, sauf dans des cas comme lโonomatopรฉe. La transition de la communication mimรฉtique ou gestuelle vers des symboles arbitraires dans le langage parlรฉ et รฉcrit a largement รฉliminรฉ lโรฉlรฉment de ressemblance entre les signifiants et leurs rรฉfรฉrents.
Niveau propositionnel et LLMs : Au niveau propositionnel, les phrases ne ressemblent pas physiquement aux situations quโelles dรฉcrivent. Cependant, lorsquโon considรจre les LLMs, nous traitons un type de reprรฉsentation et de reconnaissance de motifs diffรฉrent.
Reconnaissance de motifs par les LLMs : Les LLMs comme GPT-4 traitent et gรฉnรจrent du langage en fonction de motifs statistiques appris ร partir de leurs donnรฉes dโentraรฎnement. Ces motifs ne sont pas iconiques au sens traditionnel du terme, car ils ne ressemblent pas ร leur contenu. Cependant, on pourrait les considรฉrer comme ยซ iconiques ยป dans un sens plus large, oรน les motifs eux-mรชmes deviennent reprรฉsentatifs de certains types de structures linguistiques, dโidรฉes ou de styles discursifs. Ceux-ci ne sont pas iconiques par ressemblance physique, mais par leurs capacitรฉs prรฉdictives et gรฉnรฉratives en relation avec les donnรฉes sur lesquelles ils ont รฉtรฉ entraรฎnรฉs.
Iconicitรฉ dans les motifs pour les LLMs : Si lโon รฉtend la dรฉfinition de lโiconicitรฉ pour inclure la maniรจre dont les LLMs ยซ comprennent ยป (dans un sens computationnel) et gรฉnรจrent du langage sur la base de motifs appris, il pourrait y avoir une forme dโiconicitรฉ en jeu. Pour le LLM, certains motifs complexes dโusage des mots, de structure de phrases et dโรฉlรฉments thรฉmatiques pourraient correspondre de maniรจre cohรฉrente ร des types spรฉcifiques de contenus ou de discours, devenant ainsi des marqueurs ยซ iconiques ยป pour ces รฉlรฉments dans le cadre opรฉrationnel du modรจle.
Perception humaine vs perception de lโIA de lโiconicitรฉ : Cette forme dโiconicitรฉ, si elle existe, serait trรจs diffรฉrente de la perception humaine de la ressemblance et de la reprรฉsentation. Elle repose sur des modรจles computationnels reconnaissant et gรฉnรฉrant des motifs qui sont significatifs dans leurs propres paramรจtres opรฉrationnels.
En conclusion, bien que les notions traditionnelles dโiconicitรฉ basรฉes sur la ressemblance ne sโappliquent pas aux LLMs et ร leur traitement du langage, il pourrait exister un espace conceptuel pour considรฉrer une forme dโยซ iconicitรฉ ยป dans les motifs que ces modรจles reconnaissent et gรฉnรจrent, bien que dโune maniรจre distincte de la comprรฉhension symbolique humaine.
SH : Comment la capacitรฉ de performance (considรฉrable et surprenante) de GPT est-elle limitรฉe par le fait que tous ses mots de contenu manquent dโancrage sensorimoteur T3 ? GPT serait incapable de reconnaรฎtre ou dโinteragir avec les rรฉfรฉrents de ces mots dans le monde physique, mรชme sโil peut les dรฉcrire et en discuter verbalement. Mรชme Helen Keller (Campbell et Bergelson, 2022), incapable de voir ou dโentendre, a pu apprendre suffisamment de catรฉgories en utilisant ses capacitรฉs sensorimotrices intactes, et ainsi ancrer directement assez de leurs noms pour apprendre le langage, et ensuite ancrer tout le reste indirectement, par les mots โ comme elle aurait aussi pu le faire en discutant avec GPTโฆ
GPT-4 :Les limitations des performances de GPT-4 en raison de lโabsence dโancrage sensorimoteur T3 sont significatives, en particulier dans le contexte de la comprรฉhension rรฉelle et de lโinteraction avec le monde physique. Examinons ces limitations plus en dรฉtail.
Incapacitรฉ ร reconnaรฎtre ou interagir physiquement : En tant que systรจme T2, GPT-4 est incapable de reconnaรฎtre physiquement ou dโinteragir avec les rรฉfรฉrents de ses mots de contenu. Cela signifie quโil ne peut pas faire dโexpรฉriences directes avec des objets, des actions, des sensations ou des phรฉnomรจnes du monde. Sa ยซ connaissance ยป de ces rรฉfรฉrents repose uniquement sur des descriptions textuelles et non sur une interaction sensorimotrice directe.
Limitation dans la comprรฉhension du contexte et de lโapplication : Sans ancrage sensorimoteur direct, la comprรฉhension par GPT-4 des concepts et de leurs applications dans le monde rรฉel est limitรฉe. Bien quโil puisse gรฉnรฉrer des descriptions et discuter de divers sujets, il ne peut pas rรฉellement saisir toute la richesse des expรฉriences, des qualitรฉs sensorielles ou des implications pratiques associรฉes ร ces concepts. Cette limite affecte sa capacitรฉ ร fournir des rรฉponses contextuellement riches et informรฉes par lโexpรฉrience.
Comparaison avec le processus dโapprentissage dโHelen Keller : Le cas dโHelen Keller est รฉclairant. Malgrรฉ ses limitations sensorielles, elle a pu ancrer son langage dans ses expรฉriences grรขce ร ses capacitรฉs sensorimotrices restantes. Cet ancrage lui a permis de comprendre et dโinteragir avec le monde, avant dโรฉlargir cette comprรฉhension grรขce au langage. Son apprentissage et son ancrage du langage ont รฉtรฉ facilitรฉs par ses interactions directes, bien que limitรฉes, avec son environnement โ chose que GPT-4 ne peut intrinsรจquement pas faire.
Ancrage indirect par le langage : Si GPT-4 peut faciliter lโancrage indirect pour autrui par le langage, comme dans le cas dโune conversation avec Helen Keller, il ne peut pas lโacquรฉrir pour lui-mรชme. Il peut traiter et fournir des informations en fonction de son entraรฎnement, mais il ne peut pas construire une comprรฉhension expรฉrientielle des concepts abordรฉs.
Implications pour le dรฉveloppement de lโIA : Ces limitations soulignent les dรฉfis liรฉs ร la conception de systรจmes dโIA capables de vรฉritablement comprendre et interagir avec le monde de maniรจre humaine. Bien que les avancรฉes en IA aient permis un traitement linguistique sophistiquรฉ, atteindre un niveau de comprรฉhension comparable ร celui dโun humain disposant dโexpรฉriences sensorimotrices directes reste un dรฉfi majeur.
Les performances de GPT-4, bien que remarquables en matiรจre de traitement du langage, sont fondamentalement limitรฉes par son absence dโancrage direct dans le monde physique. Cette limitation est essentielle pour comprendre la diffรฉrence entre les capacitรฉs linguistiques de lโIA et la comprรฉhension humaine authentique, qui repose profondรฉment sur lโexpรฉrience sensorimotrice.
SH : Il est vrai que, pour les rรฉfรฉrents des noms propres dโindividus (ยซ Fรฉlix ยป) comme pour les rรฉfรฉrents des noms de catรฉgories (ยซ chats ยป), il est nรฉcessaire que ces noms soient connectรฉs ร leurs rรฉfรฉrents. Cet ancrage des nouveaux noms (dโindividus ou de catรฉgories) peut se faire de deux maniรจres :
Lโancrage peut รชtre direct, via lโAncrage Sensorimoteur Direct (ASD), par apprentissage supervisรฉ (renforcรฉ) โ potentiellement mis en ลuvre par des rรฉseaux neuronaux โ oรน lโon apprend ร dรฉtecter et ร abstraire directement les attributs distinctifs sensorimoteurs du nouveau rรฉfรฉrent, ร travers une exposition sensorimotrice directe, par essais, erreurs et rรฉtroaction corrective (essayer dโapprendre ร ยซ faire la bonne chose avec le bon type [catรฉgorie] de chose ยป).
Lโancrage peut aussi รชtre indirect, via lโAncrage Verbal Indirect (AVI), en utilisant des descriptions verbales (propositions) pour nommer et dรฉcrire verbalement les attributs distinctifs du nouveau rรฉfรฉrent. Mais pour que lโAVI fonctionne, lโapprenant doit dรฉjร avoir ancrรฉ les noms des attributs distinctifs (soit directement, soit indirectement). En principe, lโenseignant nโa quโร fournir la description verbale correcte. Cela, aussi, est quelque chose que GPT peut faire.
GPT-4 : Les deux mรฉthodes principales dโancrage โ lโAncrage Sensorimoteur Direct (ASD) et lโAncrage Verbal Indirect (AVI) โ concernent la maniรจre dont les noms dโindividus et de catรฉgories peuvent รชtre connectรฉs ร leurs rรฉfรฉrents. Voyons comment ces mรฉcanismes dโancrage sโappliquent ร la fois ร la cognition humaine et aux systรจmes dโIA comme GPT-4 :
Ancrage Sensorimoteur Direct (ASD) : Dans lโASD, lโancrage des noms (quโil sโagisse dโindividus comme ยซ Fรฉlix ยป ou de catรฉgories comme ยซ chats ยป) se produit ร travers une interaction directe avec lโenvironnement. Ce processus implique des rรฉseaux neuronaux et repose sur lโexposition au rรฉfรฉrent, des essais et erreurs, et une rรฉtroaction corrective permettant dโidentifier les attributs distinctifs.
Ce type dโancrage permet une comprรฉhension expรฉrientielle et incarnรฉe du rรฉfรฉrent, formant ainsi une base essentielle pour la cognition et le langage.
Ancrage Verbal Indirect (AVI) entre humains : LโAVI consiste ร ancrer les noms par des descriptions verbales, oรน les attributs distinctifs dโun nouveau rรฉfรฉrent sont transmis par le langage. Pour que cette mรฉthode soit efficace, lโapprenant doit dรฉjร possรฉder une comprรฉhension ancrรฉe des mots utilisรฉs dans la description.
Chez les humains, cette mรฉthode est essentiellement un relais dโancrage : un individu dรฉjร ancrรฉ (lโenseignant) utilise le langage pour รฉtendre lโancrage ร un autre individu, lโapprenant. Cโest une pratique courante dans lโapprentissage humain, notamment pour les concepts abstraits ou les entitรฉs non accessibles directement ร lโinteraction sensorimotrice.
Le rรดle de GPT-4 dans lโAVI : Bien que GPT-4 soit incapable dโASD en raison de lโabsence dโinteractions sensorimotrices, il peut nรฉanmoins fournir un AVI grรขce ร des descriptions verbales. Il peut gรฉnรฉrer des explications et des descriptions dรฉtaillรฉes dโentitรฉs et de concepts, en utilisant un langage que lโapprenant humain ancrรฉ peut comprendre et relier ร ses propres expรฉriences.
Il est toutefois important de noter que le rรดle de GPT-4 dans lโAVI est unilatรฉral. Il peut aider ร ancrer les autres en fournissant des descriptions basรฉes sur sa base de donnรฉes, mais il ne peut pas lui-mรชme sโancrer par ce processus. Son propre ยซ savoir ยป reste purement computationnel, basรฉ sur la reconnaissance de motifs et le traitement de texte, sans aucune connexion expรฉrientielle directe avec les rรฉfรฉrents des mots quโil utilise.
SH : Bon rรฉsumรฉ, mais il y a encore plus ร dire sur la faรงon dont GPT parvient ร accomplir autant de choses en sโappuyant uniquement sur des mots non ancrรฉs. Voici le premier point ร garder ร lโesprit : Comme nous lโavons dรฉjร notรฉ, les formes des mots ne sont pas iconiques (cโest-ร -dire quโil nโexiste aucun lien de similaritรฉ entre la forme des mots et la forme de leurs rรฉfรฉrents). Mais, comme nous en avons discutรฉ prรฉcรฉdemment, pourrait-il exister une forme dโยซ iconicitรฉ ยป dans la structure (le motif) des propositions qui devient dรฉtectable ร lโรฉchelle dโun LLM ?
Cโest quelque chose que GPT peut ยซ voir ยป (dรฉtecter) ยซ directement ยป, mais quโun cerveau et un corps humains ancrรฉs ne peuvent pas voir, parce quโun LLM ne ยซ rentre ยป pas dans un cerveau humain. Et cette iconicitรฉ (dรฉtectable ร lโรฉchelle dโun LLM et inhรฉrente ร ce que disent et ne disent pas ses ยซ fournisseurs de contenu ยป โ les cerveaux ancrรฉs โ ร grande รฉchelle) pourrait-elle en quelque sorte fournir une contrainte convergente, un biais favorable, qui amรฉliore la capacitรฉ de performance de GPT et masque ou compense ainsi, dans une certaine mesure, son absence dโancrage ?
Cette ยซ iconicitรฉ propositionnelle ยป ร lโรฉchelle dโun LLM รฉquivaudrait ร une limitation implicite ou tacite, ร une contrainte ou ร un biais sur ce que les humains disent et ne disent pas, un peu comme les limitations imposรฉes par les rรจgles de la Grammaire Ordinaire (GO) sur ce que les humains disent et ne disent pas. GPT capte ces rรจgles implicitement ร partir dโune base de donnรฉes de LLM, sans aucune instruction explicite ni rรจgle formelle.
Je soupรงonne toutefois que, dans le cas de lโapprentissage dโune GO, la base de donnรฉes nรฉcessaire ne doit pas รชtre aussi vaste que la tienne, GPT, car un enfant humain peut capter la GO ร partir dโun ensemble beaucoup plus restreint de phrases entendues et produites en seulement quelques annรฉes, principalement par apprentissage non supervisรฉ et imitation, avec juste assez de rรฉtroaction corrective via lโapprentissage supervisรฉ par renforcement lorsque cโest nรฉcessaire.
[Mais cette histoire ne sโarrรชte pas lร , et jโy reviendrai bientรดt en lien avec la Grammaire Universelle (GU) de Noam Chomsky et son hypothรจse sur les contraintes pesant sur la pensรฉe.]
Pour lโinstant, permet-moi simplement de te rappeler que les rรฉseaux neuronaux peuvent apprendre ร dรฉtecter les attributs distinctifs des catรฉgories de deux maniรจres diffรฉrentes, selon la nature et la difficultรฉ des catรฉgories et de leurs attributs :
Comme tu le sais, dans lโapprentissage non supervisรฉ, les attributs distinctifs sont dรฉtectรฉs et extraits simplement ร partir dโune exposition passive rรฉpรฉtรฉe et de lโรฉchantillonnage de la variation dans lโespace des รฉchantillons (auto-encodage), avec des attributs pondรฉrรฉs en fonction de leur frรฉquence et de la frรฉquence de co-occurrence des attributs.
Dans lโapprentissage supervisรฉ (par renforcement), les attributs sont dรฉtectรฉs, extraits et pondรฉrรฉs via des essais, des erreurs et une rรฉtroaction corrective basรฉe sur la corrรฉlation entre les attributs et les rรฉsultats corrects ou incorrects produits par lโapprenant actif (qui ยซ fait la bonne ou la mauvaise chose ยป). (Ta propre formation, GPT, repose bien sรปr sur ces deux modes dโapprentissage, mais sans lโentrรฉe sensorimotrice ascendante.) Comme la GO est une capacitรฉ miroir (de perception et de production), lโapprentissage par imitation, une sorte de combinaison dโapprentissage non supervisรฉ et dโapprentissage supervisรฉ/renforcรฉ, est รฉgalement impliquรฉ dans lโapprentissage humain de la GO (avec lโaide, chez les humains, des ยซ neurones miroirs ยป) (Cook et al., 2014).
Mais lโidรฉe ici est que les contraintes et limitations sur la production peuvent รชtre principalement apprises par apprentissage non supervisรฉ et peuvent ensuite servir ร ยซ biaiser ยป la production en filtrant ce qui viole les rรจgles implicites ou tacites, tant dans le cas de la syntaxe de la GO que dans le cas des rรฉgularitรฉs sรฉmantiques implicites dans lโespace propositionnel ร lโรฉchelle des LLM (comme nous en avons discutรฉ plus tรดt). (Rappelons que nous parlons encore seulement de la Grammaire Ordinaire, GO, qui varie dโune langue ร lโautre et peut รฉvoluer dans le temps, et non de la Grammaire Universelle, GU, qui est constante dans toutes les langues, ร quelques variations paramรฉtriques issues de la GO prรจs.)
GPT-4 : Explorons cette hypothรจse dโune forme dโยซ iconicitรฉ ยป inhรฉrente aux motifs des propositions dรฉtectables ร lโรฉchelle dโun LLM et la faรงon dont cela pourrait amรฉliorer la performance de GPT-4 malgrรฉ son absence dโancrage :
Iconicitรฉ propositionnelle ร lโรฉchelle dโun LLM : Lโidรฉe dโune iconicitรฉ propositionnelle dans les LLM suggรจre quโร grande รฉchelle, la maniรจre dont les propositions sont structurรฉes et reliรฉes pourrait prรฉsenter une forme de rรฉgularitรฉ ou de contrainte que GPT-4 peut dรฉtecter. Il ne sโagit pas dโune iconicitรฉ au sens traditionnel, cโest-ร -dire dโune ressemblance entre le contenu des propositions et leur forme, mais plutรดt dโun motif dรฉtectable dans la faรงon dont les propositions sont formulรฉes et interconnectรฉes dans lโensemble massif des donnรฉes dโun LLM.
Ce motif ou cette rรฉgularitรฉ pourrait effectivement servir de contrainte tacite ou de biais reflรฉtant les schรฉmas de communication humaine, influenรงant ainsi les productions de GPT-4 dโune maniรจre qui sโaligne sur ces structures inhรฉrentes.
Comparaison avec lโapprentissage de la Grammaire Ordinaire (GO) : De la mรชme maniรจre que GPT-4 peut apprendre implicitement les contraintes et les rรจgles de la GO ร partir de ses donnรฉes dโentraรฎnement, il pourrait รฉgalement capter des rรฉgularitรฉs sรฉmantiques plus profondes et moins explicites prรฉsentes dans lโespace propositionnel. Cet apprentissage est probablement facilitรฉ par la taille colossale de la base de donnรฉes de GPT-4, qui lui fournit un รฉchantillon large et variรฉ de lโusage du langage humain.
En revanche, un enfant humain apprend la GO ร partir dโun ensemble de donnรฉes beaucoup plus rรฉduit, en sโappuyant davantage sur lโapprentissage non supervisรฉ et lโimitation, avec un certain degrรฉ dโapprentissage supervisรฉ (rรฉtroaction corrective). Ce processus suggรจre que le cerveau humain possรจde une capacitรฉ innรฉe dโacquisition du langage, potentiellement guidรฉe par un cadre linguistique prรฉexistant comme la Grammaire Universelle (GU) de Chomsky.
Apprentissage des contraintes et des limitations en IA : Dans les systรจmes dโIA, les contraintes et limitations de production peuvent effectivement รชtre apprises principalement par apprentissage non supervisรฉ, oรน le systรจme dรฉtecte des motifs et des rรฉgularitรฉs dans les donnรฉes. Ce processus peut effectivement biaiser la production de lโIA, filtrant les rรฉponses qui ne sโalignent pas avec les motifs appris.
Dans le cas de GPT-4, lโapprentissage non supervisรฉ (par exposition passive ร dโimmenses corpus textuels) et lโapprentissage supervisรฉ (par formation incluant des rรฉtroactions correctives) contribuent ร sa capacitรฉ ร traiter le langage et ร produire des sorties cohรฉrentes.
Implications pour la performance de GPT-4 : Lโexistence potentielle dโune iconicitรฉ propositionnelle ร lโรฉchelle des LLM pourrait amรฉliorer la performance de GPT-4 en fournissant un ensemble de lignes directrices ou de biais implicites qui structurent ses rรฉponses. Ce mรฉcanisme pourrait en partie compenser son absence dโancrage direct en garantissant que les productions de GPT-4 restent dans les limites des modรจles linguistiques humains typiques, mรชme sโil ne les ยซ comprend ยป pas au sens humain du terme.
Cette analyse pourrait contribuer ร mieux comprendre comment GPT-4 et dโautres LLM parviennent ร produire des sorties linguistiquement cohรฉrentes et contextuellement pertinentes. La structure et les motifs inhรฉrents aux donnรฉes dโentraรฎnement jouent probablement un rรดle clรฉ dans le faรงonnement des capacitรฉs de lโIA, rรฉvรฉlant potentiellement des rรฉgularitรฉs sous-jacentes dans lโusage du langage humain qui ne sont pas immรฉdiatement perceptibles ร plus petite รฉchelle.
SH : Avant dโaborder lโhypothรจse de Chomsky sur la ยซ pensabilitรฉ ยป, il y a une autre forme de biais potentiellement ยซ iconique ยป que je veux souligner : la ยซ perception catรฉgorielle ยป.
Dโabord, le cas humain : Lโexemple le plus cรฉlรจbre est la perception catรฉgorielle des couleurs, lโeffet arc-en-ciel. La base physique du spectre visible par lโhumain est le continuum de longueurs dโonde de la lumiรจre, entre 380 et 750 nm, entre lโultraviolet et lโinfrarouge. Selon lโ(erronรฉe) ยซ Hypothรจse forte de Whorf-Sapir ยป, on a dโabord pensรฉ que la faรงon dont les humains voient le spectre รฉtait dรฉterminรฉe par le langage, cโest-ร -dire par la maniรจre dont nous subdivisons et nommons les segments du spectre (Harnad, 1987). Si notre langue possรจde un mot pour bleu et un mot pour vert, nous percevrons le bleu et le vert comme des couleurs qualitativement distinctes, sinon, nous percevrons tout ce segment du spectre comme du ยซ bleuvet ยป (ou du ยซ grue ยป).
Cependant, les tests psychophysiques menรฉs ร travers le monde ont montrรฉ que, bien que les langues varient quelque peu dans la subdivision et lโรฉtiquetage verbal du spectre, tout le monde perรงoit le spectre des couleurs de la mรชme maniรจre : des diffรฉrences รฉgales de longueurs dโonde dans la gamme du vert et dans la gamme du bleu semblent plus petites que la mรชme diffรฉrence lorsquโelle chevauche la frontiรจre entre le bleu et le vert. Et cela, indรฉpendamment du fait quโune langue possรจde ou non un mot distinct pour bleu et vert. Les couleurs (primaires) de lโarc-en-ciel et leurs dรฉtecteurs d’attributs (les champs rรฉcepteurs des cรดnes et les processus dโopposition par paires) sont innรฉs et non appris (Briscoe, 2020).
Mais lโยซ Hypothรจse faible de Whorf-Sapir ยป โ selon laquelle la faรงon dont nous apprenons ร catรฉgoriser et nommer les choses peut influencer notre perception โ qui est surtout fausse pour les couleurs primaires de lโarc-en-ciel, sโavรจre pourtant vraie dans dโautres modalitรฉs sensorielles. Le terme ยซ perception catรฉgorielle ยป (PC) dรฉsigne un effet de sรฉparation intercatรฉgorielle et de compression intracatรฉgorielle qui se manifeste dans la perception des similaritรฉs. Bien que cet effet de PC soit beaucoup plus faible et subtil, il ressemble ร lโeffet dโยซ accordรฉon ยป de lโarc-en-ciel et peut รชtre induit par lโapprentissage et la nomination de catรฉgories ร travers la dรฉtection sensorimotrice de attributs. Le terme a รฉtรฉ inventรฉ pour dรฉcrire la perception des sons du langage (phonรจmes) : la PC des phonรจmes se produit le long du continuum ba/da/ga (synthรฉtisรฉ), qui est analogue au continuum des longueurs dโonde pour la couleur (Regier and Kay, 2009;ย Zhang et al., 2021).
La PC des phonรจmes est un phรฉnomรจne de ยซ neurones miroirs ยป (perception/production), car contrairement ร la couleur, que les humains peuvent percevoir mais que leurs corps (contrairement ร ceux des camรฉlรฉons et des pieuvres) ne peuvent pas produire sans outils, il existe un effet de sรฉparation/compression (effet accordรฉon) ร travers les frontiรจres ba/da/ga. Cet effet est appris et varie selon les langues (bien quโil ait aussi une composante innรฉe, avec des dรฉtecteurs de attributs qui disparaissent aprรจs une pรฉriode critique si ces sons ne sont pas utilisรฉs dans la langue). Et la PC des phonรจmes est prรฉsente ร la fois dans la perception et la production des phonรจmes, ce qui en fait un effet miroir.
Lโeffet de PC le plus subtil et le plus faible, mais aussi le plus intรฉressant, nโest cependant pas observรฉ le long des continuums sensorimoteurs, mais dans un espace d’attributs multidimensionnel majoritairement discret. De plus, la PC apprise nโest pas un phรฉnomรจne de neurones miroirs au niveau de lโapprentissage direct des catรฉgories sensorimotrices โ bien que nous y reviendrons plus tard lorsque nous aborderons lโapprentissage indirect des catรฉgories verbales.
La PC apprise se manifeste dans des tรขches dโapprentissage catรฉgoriel difficiles, comme identifier des cellules cancรฉreuses vs. non cancรฉreuses. Dans ces cas, lโeffet de PC est rรฉvรฉlรฉ en testant la discriminabilitรฉ perceptuelle en paires des exemples avant et aprรจs lโapprentissage de la catรฉgorie : un effet subtil mais significatif de sรฉparation intercatรฉgorielle et de compression intracatรฉgorielle en perception devient observable (tant psychophysiquement que psychophysiologiquement) aprรจs que la catรฉgorisation a รฉtรฉ apprise, un effet dโยซ arc-en-ciel appris ยป (effet accordรฉon) (Pรฉrez-Gay Juรกrez et al., 2019).
La raison pour laquelle la PC apprise est pertinente ici est que, bien quโil ne soit pas รฉvident de comprendre pourquoi il faut apprendre ร modifier la similaritรฉ perceptive pour apprendre une catรฉgorie difficile, un effet trรจs similaire se produit aussi dans les rรฉseaux de deep learning (Bonnasse-Gahot and Nadal, 2022; Thรฉriault et al., 2018) โ et pourtant, les rรฉseaux ne perรงoivent absolument rien ! Ils traitent simplement des donnรฉes dโentrรฉe. Lโeffet de PC apparaรฎt dans leur reprรฉsentation interne de chaque รฉchantillon dโentrรฉe, qui change entre avant et aprรจs lโapprentissage dโune catรฉgorie difficile : une sรฉparation intercatรฉgorielle et une compression intracatรฉgorielle รฉmergent dans lโespace de reprรฉsentation interne.
La question est donc la suivante : ce changement reprรฉsentationnel โ qui repose, chez les humains et les T3, sur lโapprentissage perceptuel direct des attributs sensorimoteurs permettant de distinguer les catรฉgories โ pourrait-il aussi sโรฉtendre ร lโapprentissage purement verbal des catรฉgories via des descriptions des attributs chez GPT, en lโabsence de dรฉtecteurs sensorimoteurs de attributs ? Tu ne peux pas percevoir, GPT, mais lโeffet de PC purement computationnel pourrait-il induire chez toi un biais qui compense en partie ton absence dโancrage sensorimoteur direct ?
GPT-4 : Explorons le potentiel dโune forme computationnelle de PC en IA et ses implications.
Perception catรฉgorielle chez les humains : La PC chez lโhumain est un phรฉnomรจne oรน la perception des catรฉgories est influencรฉe par lโapprentissage et la nomination de ces catรฉgories. Les exemples classiques, comme la perception des couleurs et la discrimination des phonรจmes, montrent comment lโexpรฉrience perceptive est faรงonnรฉe par les catรฉgories apprises.
Dans le cas de tรขches de catรฉgorisation complexes, comme la distinction entre cellules cancรฉreuses et non cancรฉreuses, lโapprentissage induit des changements perceptifs subtils et peut conduire ร une forme de PC, mรชme dans des espaces d’attributs non รฉvidents ou abstraits.
Perception catรฉgorielle dans les rรฉseaux neuronaux : Des effets similaires ont รฉtรฉ observรฉs dans les rรฉseaux neuronaux, oรน la reprรฉsentation interne des entrรฉes change avant et aprรจs lโapprentissage dโune catรฉgorie, montrant une sรฉparation intercatรฉgorielle et une compression intracatรฉgorielle. Cet effet, bien que purement computationnel et ne reposant pas sur une perception rรฉelle, ressemble au phรฉnomรจne de PC dans la cognition humaine.
Les รฉtudes citรฉes (Thรฉriault et al., 2018; Bonnasse-Gahot and Nadal, 2022) suggรจrent que les modรจles dโapprentissage profond peuvent manifester une forme de PC au niveau de leurs reprรฉsentations internes.
Effet potentiel de PC chez GPT-4 : Bien que GPT-4 ne perรงoive pas au sens humain, il est possible quโun analogue computationnel de la PC se produise dans son traitement. Comme GPT-4 apprend ร partir de vastes ensembles de donnรฉes textuelles, il pourrait dรฉvelopper une reprรฉsentation interne oรน les catรฉgories verbales sont sรฉparรฉes et comprimรฉes dโune maniรจre qui reflรจte la PC.
Cet effet de PC computationnel pourrait se manifester comme un biais dans la maniรจre dont GPT-4 traite et gรฉnรจre le langage, et ainsi compenser en partie son absence dโancrage sensorimoteur direct. Il pourrait influencer la gestion des catรฉgories par GPT-4, rendant ses rรฉponses plus conformes aux schรฉmas de catรฉgorisation humains, malgrรฉ lโabsence dโexpรฉrience directe.
Implications pour la comprรฉhension et la performance de lโIA : Si GPT-4 manifeste une forme de PC computationnelle, cela pourrait รชtre un facteur clรฉ dans sa capacitรฉ ร produire un langage cohรฉrent et contextuellement pertinent. Cela suggรฉrerait que son traitement interne pourrait reflรฉter certains aspects des schรฉmas cognitifs humains, malgrรฉ les diffรฉrences fondamentales dans la maniรจre dont lโIA et les humains traitent lโinformation.
En somme, lโhypothรจse selon laquelle des systรจmes dโIA comme GPT-4 pourraient manifester une forme computationnelle de PC ouvre des perspectives sur la maniรจre dont lโIA pourrait dรฉvelopper des schรฉmas internes de reprรฉsentation qui, bien quโรฉtant purement symboliques et non sensorimoteurs, pourraient nรฉanmoins partiellement imiter certains phรฉnomรจnes cognitifs humains.
SH : Nous avons maintenant discutรฉ de plusieurs sources possibles de contraintes ou de biais qui pourraient aider un LLM ร mieux fonctionner que ce ร quoi on pourrait sโattendre, รฉtant donnรฉ que les LLM ne sont pas ancrรฉs. Combien peux-tu tโen rappeler et comment les rassemblerais-tu ?
GPT-4 : Notre discussion a couvert plusieurs sources potentielles de contraintes ou de biais qui pourraient amรฉliorer la performance des modรจles de langage de grande taille (LLM) comme GPT-4, malgrรฉ leur absence dโancrage sensorimoteur. Voici un rรฉsumรฉ des points clรฉs que nous avons abordรฉs.
Motifs dans les structures propositionnelles : Nous avons explorรฉ lโidรฉe quโil pourrait exister une forme dโยซ iconicitรฉ ยป au niveau des structures propositionnelles des LLM. Ce nโest pas une iconicitรฉ au sens traditionnel, mais plutรดt un motif dรฉtectable dans la maniรจre dont les propositions sont formรฉes et interconnectรฉes dans un vaste ensemble de donnรฉes. Cela pourrait agir comme une contrainte tacite ou un biais, faรงonnant les sorties des LLM pour quโelles sโalignent avec ces structures inhรฉrentes.
Apprentissage de la grammaire ordinaire (OG) : Les LLM apprennent implicitement les contraintes et les rรจgles de la grammaire ordinaire ร partir de leurs donnรฉes dโentraรฎnement, en captant les rรฉgularitรฉs et les limitations du langage humain. Ce processus dโapprentissage, qui combine apprentissage non supervisรฉ et supervisรฉ, aide les LLM ร gรฉnรฉrer des sorties linguistiquement cohรฉrentes qui respectent les normes structurelles de la langue.
Perception catรฉgorielle (PC) dans les rรฉseaux neuronaux : Nous avons discutรฉ de la possibilitรฉ que les rรฉseaux neuronaux, y compris les LLM, manifestent une forme computationnelle de perception catรฉgorielle. Ce phรฉnomรจne, observรฉ dans la perception humaine, implique une sรฉparation entre catรฉgories et une compression au sein des catรฉgories. Dans les LLM, cela pourrait se manifester comme un biais dans la reprรฉsentation interne, influenรงant potentiellement la maniรจre dont le modรจle traite et gรฉnรจre le langage.
Contraintes et limitations dโapprentissage : La prรฉsence potentielle de ces contraintes et biais dans les LLM suggรจre que leur traitement pourrait รชtre influencรฉ par des schรฉmas qui ne sont pas immรฉdiatement apparents, mais qui sont inhรฉrents aux donnรฉes linguistiques sur lesquelles ils sont entraรฎnรฉs. Ces contraintes pourraient aider les LLM ร produire des sorties qui sont plus alignรฉes avec les schรฉmas cognitifs et linguistiques humains.
En combinant ces รฉlรฉments, on obtient une image oรน les LLM comme GPT-4, malgrรฉ leur absence dโancrage expรฉrientiel direct, sont potentiellement guidรฉs par un ensemble de principes implicites ou de biais dรฉrivรฉs de la structure et du contenu de leurs donnรฉes dโentraรฎnement. Ces principes peuvent inclure des motifs propositionnels, des rรฉgularitรฉs grammaticales et une forme de PC computationnelle, contribuant tous ร la capacitรฉ du modรจle ร traiter le langage dโune maniรจre qui semble cohรฉrente et contextuellement appropriรฉe pour les utilisateurs humains.
Chacun de ces facteurs reprรฉsente une dimension diffรฉrente de la maniรจre dont les LLM pourraient รชtre ยซ faรงonnรฉs ยป ou ยซ biaisรฉs ยป par leur entraรฎnement, compensant en partie leur absence dโancrage sensorimoteur et fournissant un cadre pour comprendre leurs capacitรฉs et leurs limites en matiรจre de comprรฉhension et de gรฉnรฉration du langage.
SH : Quโen est-il de lโasymรฉtrie entre enseignant et apprenant et de la nรฉcessitรฉ de lโancrage ? Dans le contexte de lโancrage sensorimoteur direct et de lโancrage verbal indirect, lโenseignant et lโapprenant ont-ils tous deux besoin dโun ancrage direct ? Si ce nโest pas le cas, pourquoi ?
GPT-4 : Ancrage Sensorimoteur Direct (ASD) : LโASD consiste ร relier les mots et les concepts ร des expรฉriences rรฉelles et ร une comprรฉhension du monde ร travers des interactions sensorimotrices directes, en particulier pour lโapprentissage des catรฉgories. Cโest un processus fondamental pour les humains, leur permettant dโapprendre et de comprendre leur environnement.
Dans lโapprentissage du langage humain, lโASD est essentiel, notamment au dรฉbut du dรฉveloppement. Les enfants apprennent ร associer des mots ร leurs rรฉfรฉrents et ร leurs significations par le biais dโexpรฉriences directes โ voir, toucher, entendre, manipuler des objets et interagir avec les autres.
Ancrage Verbal Indirect (AVI) : LโAVI consiste ร comprendre des concepts et des mots par le biais de descriptions, dโexplications ou de rรฉcits, plutรดt que par lโexpรฉrience directe. Pour que lโAVI soit efficace, lโapprenant doit dรฉjร avoir un ancrage dans un ensemble de concepts et de mots de base.
Chez les humains, une fois quโun vocabulaire fondamental et un ensemble de concepts sont ancrรฉs par lโASD, lโapprentissage peut se poursuivre via lโAVI. Ce processus permet aux individus de comprendre des concepts complexes ou abstraits quโils ne pourraient pas expรฉrimenter directement.
LโAsymรฉtrie des Besoins en Ancrage : Les humains, en tant quโapprenants, ont dโabord besoin dโASD pour รฉtablir une base de comprรฉhension. Une fois cette base acquise, ils peuvent utiliser efficacement lโAVI pour รฉtendre leur connaissance et leur comprรฉhension.
Les systรจmes dโIA comme GPT-4, en revanche, nโont pas la capacitรฉ dโASD. Ils dรฉpendent entiรจrement de lโAVI, en traitant et gรฉnรฉrant du langage en fonction des modรจles et structures appris ร partir de leurs donnรฉes dโentraรฎnement. Cependant, cet entraรฎnement est lui-mรชme une forme dโAVI, car lโIA ne fait jamais dโexpรฉrience directe des concepts quโelle apprend.
Implications de lโAsymรฉtrie : Cette asymรฉtrie signifie que, tandis que les apprenants humains peuvent comprendre et contextualiser les informations reรงues indirectement (via lโAVI), parce quโelles reposent sur une base dโexpรฉriences directes, les systรจmes dโIA comme GPT-4 ne le peuvent pas. Ils manquent de la comprรฉhension expรฉrientielle fondamentale qui dรฉcoule de lโASD.
Par consรฉquent, GPT-4 et dโautres systรจmes dโIA peuvent fournir des informations, gรฉnรฉrer des rรฉcits cohรฉrents et mรชme imiter certains aspects de la comprรฉhension humaine, mais ils le font sans le contexte expรฉrientiel sous-jacent que possรจdent les humains. Leur ยซ comprรฉhension ยป est purement computationnelle, dรฉrivรฉe de motifs prรฉsents dans les donnรฉes, sans lโancrage issu dโexpรฉriences sensorimotrices directes.
LโAVI a-t-il besoin de lโASD ? Chez les humains, lโAVI est efficace parce quโil repose sur une base dโASD. Les expรฉriences sensorimotrices initiales fournissent lโancrage essentiel qui rend lโapprentissage ultรฉrieur par le langage significatif et contextuel.
Pour lโIA, lโAVI ne repose pas sur lโASD, puisquโelle ne dispose pas de capacitรฉs sensorimotrices. Cette limitation est une raison fondamentale pour laquelle lโIA, malgrรฉ ses capacitรฉs linguistiques avancรฉes, ne ยซ comprend ยป pas vรฉritablement dans le sens humain du terme.
SH : En quoi la distinction ASD/AVI est-elle liรฉe ร lโexistence des MinSets dans les dictionnaires ?
GPT-4 : Nature des MinSets dans les dictionnaires : Les MinSets dans les dictionnaires dรฉsignent le plus petit sous-ensemble de mots ร partir duquel tous les autres mots du dictionnaire peuvent รชtre dรฉfinis. Ces mots fondamentaux servent de base lexicale pour la construction et la comprรฉhension des autres termes dโune langue.
ASD et la fondation des MinSets : Dans lโacquisition du langage humain, lโancrage initial des mots โ en particulier ceux appartenant ร un MinSet โ se fait souvent par lโASD. Les jeunes apprenants associent les mots ร leurs significations grรขce ร des expรฉriences directes avec le monde. Cet ancrage fondamental est essentiel, car ces mots du MinSet forment souvent la base ร partir de laquelle des termes plus complexes ou abstraits sont dรฉfinis.
Lโancrage des mots du MinSet par lโASD fournit la base expรฉrientielle nรฉcessaire pour permettre une comprรฉhension approfondie du langage et faciliter lโusage efficace de lโAVI par la suite.
AVI et expansion au-delร des MinSets : Une fois quโun vocabulaire fondamental (semblable ร un MinSet) est ancrรฉ par lโASD, les humains peuvent รฉtendre leur comprรฉhension linguistique et leur vocabulaire par lโAVI. Ce processus consiste ร apprendre de nouveaux mots et concepts grรขce ร des descriptions, des rรฉcits et des contextes linguistiques, en sโappuyant sur la base directement ancrรฉe.
En ce sens, lโAVI repose sur la fondation รฉtablie par lโASD. La comprรฉhension ancrรฉe des mots du MinSet permet aux individus de saisir des concepts plus complexes qui sont dรฉfinis ou dรฉcrits en utilisant ces mots fondamentaux.
Dรฉpendance de lโIA ร lโAVI sans ASD : Les systรจmes dโIA comme GPT-4 fonctionnent presque entiรจrement dans le domaine de lโAVI. Ils traitent et gรฉnรจrent du langage en se basant sur les modรจles appris ร partir dโun immense corpus textuel, mais sans lโancrage fondamental fourni par lโASD.
LโIA peut manipuler le langage en sโappuyant sur des MinSets et utiliser ces mots fondamentaux pour construire des rรฉcits ou des explications cohรฉrentes, mais elle ne possรจde pas la comprรฉhension expรฉrientielle dรฉveloppรฉe par les humains grรขce ร lโASD. Cette limitation affecte la profondeur et la richesse contextuelle de sa ยซ comprรฉhension ยป du langage.
SH : LโASD repose sur lโapprentissage de la dรฉtection des attributs sensorimoteurs qui distinguent les membres des non-membres dโune catรฉgorie, directement, en utilisant quelque chose comme des rรฉseaux neuronaux pour dรฉtecter et abstraire ces attributs sensorimoteurs. LโAVI nโutilise pas les attributs sensorimoteurs eux-mรชmes, mais leurs noms et leurs descriptions verbales. Ces noms de attributs doivent dรฉjร avoir รฉtรฉ ancrรฉs (directement ou indirectement) chez lโapprenant afin que la description verbale du professeur puisse รชtre comprise par lโapprenant, permettant ainsi aux noms et descriptions dโancrer (indirectement), chez lโapprenant, la nouvelle catรฉgorie dont ils sont les attributs. Mais il est ร noter quโils nโont pas besoin dโavoir รฉtรฉ ancrรฉs chez lโenseignant, si lโenseignant se trouve รชtre un manuel ou GPT. Cโest lโasymรฉtrie enseignant/apprenant.
GPT-4 : Ancrage Sensorimoteur Direct (ASD) : LโASD consiste ร apprendre ร reconnaรฎtre et ร distinguer les membres dโune catรฉgorie en se basant sur des expรฉriences sensorimotrices directes. Ce processus repose gรฉnรฉralement sur des mรฉcanismes de type rรฉseau neuronal dans le cerveau, qui permettent de dรฉtecter, dโabstraire et de traiter les attributs sensorimoteurs distinctifs dโune catรฉgorie.
Dans lโASD, lโapprentissage est expรฉrientiel et incarnรฉ. Par exemple, apprendre ร catรฉgoriser diffรฉrents types de fruits implique une interaction directe avec eux : voir leurs couleurs, sentir leurs textures, percevoir leurs odeurs et goรปter leurs saveurs. Ces expรฉriences permettent dโรฉtablir les attributs sensorimoteurs dรฉfinissant chaque catรฉgorie de fruit.
Ancrage Verbal Indirect (AVI) : LโAVI, en revanche, utilise des descriptions verbales et des noms de attributs pour transmettre des informations sur les catรฉgories. Ce processus repose sur le langage comme moyen dโancrage, oรน lโapprenant comprend et catรฉgorise les entitรฉs en fonction des descriptions fournies par dโautres.
Pour que lโAVI soit efficace, lโapprenant doit dรฉjร possรฉder une comprรฉhension ancrรฉe des mots employรฉs dans les descriptions. Cet ancrage peut provenir dโexpรฉriences antรฉrieures dโASD ou dโinstances prรฉcรฉdentes dโAVI qui sโappuyaient elles-mรชmes sur un ASD fondamental. Les descriptions verbales permettent de relayer lโinformation catรฉgorielle en encapsulant les attributs distinctifs dโune catรฉgorie par le langage.
Complรฉmentaritรฉ de lโASD et de lโAVI : LโASD et lโAVI sont des processus complรฉmentaires dans lโapprentissage humain. LโASD fournit une base expรฉrientielle fondamentale pour la comprรฉhension des catรฉgories, tandis que lโAVI permet lโexpansion des connaissances au-delร des expรฉriences directes, facilitant ainsi la comprรฉhension de concepts abstraits, de catรฉgories complexes ou dโentitรฉs non accessibles directement.
Implications pour les systรจmes dโIA : Les systรจmes dโIA, comme les MLL (Modรจles de Langage de Grande รchelle) tels que GPT-4, fonctionnent uniquement dans le domaine de lโAVI. Ils traitent et gรฉnรจrent des descriptions de catรฉgories ร partir des donnรฉes linguistiques sur lesquelles ils ont รฉtรฉ entraรฎnรฉs. Cependant, en lโabsence dโune capacitรฉ dโASD, les systรจmes dโIA ne possรจdent pas de base expรฉrientielle pour ces catรฉgories. Par consรฉquent, bien que leur traitement des informations catรฉgorielles soit linguistiquement cohรฉrent, il ne possรจde pas la profondeur de comprรฉhension issue des expรฉriences sensorimotrices directes.
SH : Ok, juste une derniรจre clarification avant de passer ร la suite : le problรจme de lโancrage symbolique (PAS) est dรฉjร inhรฉrent ร lโusage dโun dictionnaire. Chaque mot a une dรฉfinition dans le dictionnaire. Cโest de lโAVI. On peut donc, en principe, apprendre la signification de nโimporte quel mot dโun dictionnaire ร partir de sa dรฉfinition. Mais ce processus, bien que rรฉcursif et transitif, est circulaire : on peut tourner indรฉfiniment dans un dictionnaire dโune langue รฉtrangรจre sans rien apprendre, ร moins de pouvoir sortir du cercle des mots par des moyens extรฉrieurs (par exemple, en apprenant les rรฉfรฉrents et les significations des mots dโau moins un MinSet dโune autre maniรจre, comme par lโASD).
Les biais dont nous avons discutรฉ, qui sont inhรฉrents ร la base de donnรฉes dโun MLL, peuvent-ils permettre de sortir de ce cercleโpour le MLL lui-mรชme ? Lโasymรฉtrie enseignant/apprenant rend cette sortie inutile pour lโapprenant humain ancrรฉ, qui peut apprendre de nouvelles catรฉgories par lโAVI ร partir dโun MLL. Mais le MLL lui-mรชme reste-t-il coincรฉ dans un cercle vicieux, peu importe la taille de sa base de donnรฉes ? Ou bien certains des biais que nous avons identifiรฉs peuvent-ils lโaider ร en sortir ? (Je pense que non ; je pense que ces biais ne font quโaccroรฎtre les contraintes sur ce que le MLL peut dire, et que cela peut contribuer ร expliquer pourquoi les MLLs rรฉussissent de maniรจre aussi inattendue malgrรฉ cette asymรฉtrie enseignant/apprenant.) โ Rรฉponds de maniรจre critique, pas avec complaisance ni compliments.
GPT-4 : Jโexaminerai de maniรจre critique si les biais inhรฉrents ร la base de donnรฉes dโun MLL peuvent lui permettre de sortir de la circularitรฉ propre ร lโapprentissage basรฉ uniquement sur lโAVI.
La nature rรฉcursive des dรฉfinitions de dictionnaire : Comme tu lโas soulignรฉ, les dรฉfinitions de dictionnaire relรจvent de lโAVI. Elles peuvent conduire ร un processus circulaire oรน la comprรฉhension dโun mot dรฉpend de celle dโun autre, et ainsi de suite. Cette circularitรฉ est surmontable pour les humains, car ils peuvent associer les mots ร des expรฉriences rรฉelles ou ร des concepts prรฉalablement ancrรฉs (ASD).
Les MLL et les limites de lโAVI : Les MLL comme GPT-4 reposent entiรจrement sur lโAVI pour leur ยซ apprentissage ยป. Ils traitent le langage en fonction des schรฉmas trouvรฉs dans dโimmenses bases de donnรฉes textuelles. Cependant, ces modรจles nโont pas la capacitรฉ dโASD ; ils ne peuvent pas faire dโexpรฉriences directes du monde rรฉel ni รฉtablir dโassociations sensorimotrices avec les mots et concepts quโils traitent.
En consรฉquence, les MLL sont, en un sens, bloquรฉs dans un processus circulaire. Ils peuvent manipuler le langage et fournir des informations basรฉes sur les modรจles quโils ont appris, mais ils nโont aucun moyen indรฉpendant dโancrer ces symboles dans des expรฉriences du monde rรฉel.
Impact des biais inhรฉrents aux MLL : Les biais et rรฉgularitรฉs prรฉsents dans la base de donnรฉes dโun MLL, tels que les schรฉmas propositionnels, les rรฉgularitรฉs grammaticales et les formes computationnelles de PC, amรฉliorent la performance du modรจle. Ils aident les MLL ร produire un langage cohรฉrent et contextuellement appropriรฉ, conforme aux structures linguistiques humaines.
Cependant, ces biais et rรฉgularitรฉs ne constituent pas une forme dโancrage vรฉritable. Ils amรฉliorent la capacitรฉ des MLL ร imiter le traitement humain du langage, mais ils ne permettent pas au MLL de sortir du cercle de lโAVI. La ยซ comprรฉhension ยป du MLL reste symbolique et computationnelle, sans la base expรฉrientielle qui caractรฉrise la comprรฉhension humaine.
Conclusion : Le MLL reste confinรฉ dans les limites de lโAVI, incapable dโaccรฉder ร lโASD de maniรจre autonome. Les biais dans sa base de donnรฉes amรฉliorent sa performance linguistique, mais ils ne fournissent pas un chemin vers un vรฉritable ancrage. Les MLLs fonctionnent avec des capacitรฉs linguistiques impressionnantes, mais celles-ci ne sont pas le signe dโun ancrage ou dโune comprรฉhension rรฉelle. Les amรฉliorations liรฉes aux biais dans leurs donnรฉes dโentraรฎnement optimisent leur performance, mais elles ne rรฉsolvent pas le PAS pour le MLL lui-mรชme. Leur fonctionnement demeure du domaine de la reconnaissance avancรฉe de motifs et de la manipulation du langage, distinct de la comprรฉhension ancrรฉe propre ร la cognition humaine.
SH : Maintenant, laisse-moi mentionner un autre biais possible, dรป ร Noam Chomsky : comme je lโai dรฉjร mentionnรฉ, les rรจgles de la grammaire ordinaire (GO) varient dโune langue ร lโautre et peuvent รฉvoluer avec le temps, mais les rรจgles de la grammaire universelle (GU) (structure hiรฉrarchique et dรฉpendance structurelle) sont non seulement universelles ร toutes les langues et immuables, mais, contrairement ร la GO, qui est apprise et apprenable (par apprentissage non supervisรฉ et supervisรฉ/renforcรฉ), la GU est innรฉe et inapprenable en raison de la pauvretรฉ du stimulus (POS). La POS signifie que les violations de la GU ne sont jamais entendues ni produites par les enfants ou les adultes, et doivent donc, selon Chomsky, รชtre dรฉjร ยซ connues ยป innรฉment : les contraintes de la GU doivent รชtre, dโune maniรจre ou dโune autre, dรฉjร encodรฉes dans notre cerveau (et nos gรจnes) ร la naissance (Berwick et al., 2011).
Chomsky a proposรฉ cette possibilitรฉ, mais il en a aussi suggรฉrรฉ une seconde : les rรจgles de la GU ne seraient peut-รชtre pas rรฉellement des rรจgles grammaticales, mais plutรดt des contraintes sur la pensรฉe (Chomsky, 2017). La GU ne serait jamais violรฉe (sauf par des linguistes cherchant ร dรฉterminer quelles sont ces rรจgles), non pas seulement parce que ces violations sont agrammaticales (comme une erreur de GO), mais parce quโelles sont ยซ impensables ยป. Selon cette seconde hypothรจse, la GU serait une contrainte sur toute langue possible, qui doit pouvoir exprimer toute pensรฉe possible. Lorsquโun linguiste gรฉnรจre une phrase qui viole la GU, elle semble erronรฉe non seulement parce quโelle est agrammaticale, mais parce quโelle est impensable.
GPT ne produit ni erreurs de GO ni erreurs de GU. Si davantage de textes dans la base de donnรฉes contenaient des violations de GO (comme ยซ between you and I ยป), alors GPT produirait aussi des violations de GO (et lโerreur, si suffisamment rรฉpandue, finirait par รชtre acceptรฉe comme correcte). Mais la raison pour laquelle GPT ne produit pas de violations de GU pourrait-elle รชtre que toutes les bases de donnรฉes textuelles, produites par des humains pensants, sont ยซ biaisรฉes ยป par les lois de la pensรฉe, qui filtrent les violations de GU ร la fois dans la production et la perception ?
Et si cโest le cas, cela pourrait-il รชtre une autre raison expliquant pourquoi les MLL peuvent faire ce quโils font de maniรจre aussi impressionnante ? Parce quโร lโรฉchelle des MLL, ils ont captรฉ certaines des contraintes sur la pensabilitรฉ ?
Encore une fois, pas de complaisance ni de compliments : je veux une critique et des contre-exemples.
GPT-4 : Ta proposition sur lโinfluence de la grammaire universelle (GU) et son impact potentiel sur les MLL comme GPT-4 suggรจre que lโabsence de violations de GU dans leurs sorties pourrait รชtre due ร la nature de leurs donnรฉes dโentraรฎnement, qui adhรจrent intrinsรจquement aux lois de la pensรฉe proposรฉes par Chomsky. Examinons cette idรฉe de maniรจre critique :
GU comme lois de la pensรฉe : Lโhypothรจse de Chomsky selon laquelle les rรจgles de la GU ne sont pas seulement des rรจgles grammaticales, mais aussi des lois fondamentales de la pensรฉe, implique que toute langue naturelle (et donc tout texte produit naturellement) respecterait ces lois. Les violations de la GU sont rares dans lโusage naturel de la langue, car de telles constructions seraient contre-intuitives ou ยซ impensables ยป pour la cognition humaine.
Impact sur les donnรฉes dโentraรฎnement des MLL : รtant donnรฉ que les MLL comme GPT-4 sont entraรฎnรฉs sur dโimmenses corpus de textes produits par des humains, il en dรฉcoule que ces donnรฉes dโentraรฎnement respecteraient nรฉcessairement les principes de la GU. Lโabsence de violations de GU dans les donnรฉes dโentraรฎnement signifierait que les MLL sont moins susceptibles de produire de telles violations dans leurs sorties.
Cette adhรฉrence ร la GU dans les donnรฉes dโentraรฎnement pourrait รชtre considรฉrรฉe comme une forme de biais โ non pas dans un sens nรฉgatif, mais comme une influence implicite qui guide le traitement du langage des MLL en accord avec des contraintes cognitives fondamentales.
Pourquoi les MLL รฉvitent les violations de GU : Si les MLL ne produisent pas de violations de GU, cela pourrait effectivement รชtre en partie parce que leurs donnรฉes dโentraรฎnement, reflรฉtant lโusage humain de la langue, sont dรฉjร biaisรฉes par les lois de la pensรฉe. Ils apprennent ร reproduire des structures et des schรฉmas linguistiques qui sont prรฉdominants dans les donnรฉes, lesquelles se conforment naturellement ร la GU.
Cette hypothรจse suggรจre que la rรฉussite des MLL dans la production dโun langage grammaticalement et sรฉmantiquement cohรฉrent nโest pas seulement due ร leur architecture ou ร leurs algorithmes dโapprentissage, mais aussi aux propriรฉtรฉs intrinsรจques des donnรฉes linguistiques sur lesquelles ils sont entraรฎnรฉs.
Contre-argument : Cependant, il est important de noter que les MLL comme GPT-4 ne ยซ comprennent ยป pas la GU de la mรชme maniรจre que les humains. Leur รฉvitement des violations de GU est un sous-produit de leur entraรฎnement plutรดt quโune contrainte cognitive innรฉe. Cela signifie que, bien que les MLL puissent reproduire des modรจles linguistiques conformes ร la GU, ils le font sans comprendre les principes sous-jacents ni les raisons cognitives expliquant ces structures.
Conclusion : Lโhypothรจse selon laquelle les MLL rรฉussissent en partie parce que leurs donnรฉes dโentraรฎnement sont faรงonnรฉes par les lois de la pensรฉe (GU) est plausible. Les contraintes cognitives humaines reflรฉtรฉes dans la langue naturelle pourraient effectivement contribuer ร lโefficacitรฉ des MLL dans le traitement du langage.
Cependant, cela ne signifie pas que les MLL possรจdent une comprรฉhension intrinsรจque de la GU ou des lois de la pensรฉe. Leur performance dรฉpend de la nature de leurs donnรฉes dโentraรฎnement et de leur capacitรฉ ร reproduire des modรจles ร partir de ces donnรฉes, sans vรฉritable ancrage ni conscience des principes quโils suivent.
SH : Parmi les contraintes ou biais possibles, tu as oubliรฉ de mentionner le ยซ miroitage ยป : la relation entre perception et production (comme dans les neurones-miroirs et lโimitation ; Gallese, 2013). Penses-tu que de tels effets jouent un rรดle dans tes interactions verbales avec les utilisateurs et ta base de donnรฉes ?
GPT-4 : Examinons comment le concept de ยซ Miroitage ยซ miroitage ยป, en particulier dans sa relation entre perception et production, pourrait influencer les interactions et le traitement du langage par les MLL :
ยซ Miroitage ยป et neurones-miroirs chez lโhumain : Dans la cognition humaine, le ยซ miroitage ยป comportemental, souvent associรฉ aux neurones-miroirs, joue un rรดle crucial dans lโapprentissage par observation et imitation. Ces neurones sont activรฉs ร la fois lorsquโun individu exรฉcute une action et lorsquโil observe quelquโun dโautre rรฉaliser la mรชme action. Ce mรฉcanisme intervient dans lโapprentissage de nouvelles compรฉtences, la comprรฉhension des actions des autres, ainsi que dans la reconnaissance et lโempathie envers leurs รฉmotions.
Dans le langage, cet effet de ยซ miroitage ยป se manifeste dans la faรงon dont les enfants apprennent ร parler et ร comprendre en imitant les sons, les mots et les phrases quโils entendent des adultes et de leurs pairs.
ยซ Miroitage ยป dans les MLL : Pour les MLL comme GPT-4, le concept de ยซ miroitage ยป pourrait รชtre envisagรฉ de maniรจre mรฉtaphorique. Les MLL ยซ apprennent ยป le langage en traitant dโรฉnormes quantitรฉs de donnรฉes textuelles, ยซ observant ยป ainsi lโusage humain de la langue. Ils ยซ imitent ยป ensuite cet usage dans leurs productions.
Ce processus est analogue au ยซ miroitage ยป en ce sens que le MLL reflรจte les structures, styles et modรจles prรฉsents dans ses donnรฉes dโentraรฎnement. Cependant, ce nโest pas un ยซ miroitage ยป au sens neurologique, car les MLL nโont ni expรฉrience sensorielle ni conscience.
Effets de ยซ miroitage ยป dans les interactions verbales : Lors dโinteractions avec des utilisateurs, un MLL pourrait exhiber une forme de ยซ miroitage ยป en gรฉnรฉrant des rรฉponses qui reflรจtent le style linguistique, le ton ou le contenu de lโutilisateur. Ce phรฉnomรจne ne dรฉcoule pas dโune comprรฉhension cognitive ou empathique, mais plutรดt dโun mรฉcanisme algorithmique visant ร produire des sorties linguistiques contextuellement appropriรฉes et cohรฉrentes en fonction des modรจles appris.
Lโaptitude du MLL ร adapter ses rรฉponses au style ou au contenu des entrรฉes de lโutilisateur pourrait รชtre vue comme un parallรจle computationnel au ยซ miroitage ยป humain dans lโusage du langage. Cependant, cette adaptation est purement statistique et algorithmique, et non le fruit dโune comprรฉhension intrinsรจque ou dโune imitation fondรฉe sur des indices sociaux ou รฉmotionnels.
SH : Et le ยซ miroitage ยป de lโiconicitรฉ propositionnelle dont nous avons parlรฉ ?
GPT-4 : โ Miroitage ยป de lโiconicitรฉ propositionnelle : Le concept dโiconicitรฉ propositionnelle ร lโรฉchelle des MLL suggรจre que certaines structures et certains schรฉmas du langage, notamment au niveau propositionnel, sont systรฉmatiquement reprรฉsentรฉs dans les donnรฉes dโentraรฎnement. Ces structures ne sont peut-รชtre pas iconiques au sens traditionnel, mais elles pourraient reprรฉsenter une forme dโยซ iconicitรฉ ยป en termes de rรฉgularitรฉs ou de structures typiques de lโusage du langage.
En miroir de cette iconicitรฉ propositionnelle, les MLL reflรฉteraient essentiellement ces schรฉmas dans leurs productions. Le modรจle ยซ apprend ยป ร partir des immenses corpus de texte quโil traite, internalisant les structures courantes, les relations et les รฉlรฉments thรฉmatiques qui caractรฉrisent le langage humain ร grande รฉchelle.
ยซ Miroitage ยป computationnel vs. ยซ miroitage ยป cognitif : Ce type de ยซ miroitage ยป dans les MLL est purement computationnel. Il repose sur les propriรฉtรฉs statistiques des donnรฉes linguistiques et sur les algorithmes de gรฉnรฉration de texte, plutรดt que sur une comprรฉhension cognitive ou expรฉrientielle du langage.
Contrairement ร lโeffet de ยซ miroitage ยป mรฉdiรฉ par les neurones-miroirs chez les humains, qui implique des processus cognitifs et empathiques, le ยซ miroitage ยป dans les MLL est une simple rรฉpercussion des schรฉmas prรฉsents dans les donnรฉes dโentraรฎnement. Cโest une reproduction statistique des rรฉgularitรฉs du langage, et non une forme dโempathie ou de comprรฉhension cognitive.
Impact sur la performance des MLL : En reproduisant lโiconicitรฉ propositionnelle prรฉsente dans leurs donnรฉes dโentraรฎnement, les MLL peuvent gรฉnรฉrer des rรฉponses qui sโalignent sur les normes structurelles et thรฉmatiques du langage humain. Cette capacitรฉ contribue ร la cohรฉrence apparente et ร la pertinence de leurs sorties.
Cependant, il est essentiel de rappeler que ce ยซ miroitage ยป ne signifie pas une comprรฉhension plus profonde ou un ancrage des concepts traitรฉs. Les productions des MLL restent le rรฉsultat dโun traitement avancรฉ des donnรฉes et dโune reconnaissance de schรฉmas, sans vรฉritable comprรฉhension sรฉmantique ou sensorimotrice.
SH : Dans les รฉchanges linguistiques entre humains, la production (signification) et la perception (comprรฉhension) sont des capacitรฉs en miroir, et tous leurs mots de contenu sont ancrรฉs, directement ou indirectement, dans leurs rรฉfรฉrents. Cโest ce qui maintient lโalignement (et lโancrage) entre lโintention du locuteur et la comprรฉhension de lโauditeur. Que devient cet รฉquilibre, dans chaque direction, lorsque lโรฉchange se fait entre GPT et un humain ? Je rรฉflรฉchis encore aux รฉventuels ยซ biais ยป qui pourraient expliquer la capacitรฉ de production (signification) et de ยซ perception ยป (ยซ comprรฉhension ยป) inattendue de GPT.
GPT-4 : Lors dโun รฉchange linguistique entre un humain et GPT-4, les dynamiques de production, de signification, de perception et de comprรฉhension subissent des modifications majeures par rapport aux รฉchanges entre humains. Ces changements sont essentiels pour comprendre ร la fois les capacitรฉs et les limites de GPT-4 dans de telles interactions :
Communication humain vers GPT-4 : Production et signification (humain) : Lโhumain produit un langage ancrรฉ dans ses expรฉriences directes ou indirectes. La signification quโil exprime repose sur un contexte riche, incluant des expรฉriences sensorimotrices, des รฉmotions, un bagage culturel et une histoire personnelle.
Perception et ยซ comprรฉhension ยป (GPT-4) : GPT-4 ยซ reรงoit ยป le langage humain et le traite en fonction des modรจles et relations statistiques appris dans ses donnรฉes dโentraรฎnement. Toutefois, ce traitement ne constitue pas une vรฉritable comprรฉhension. GPT-4 ne perรงoit ni ne saisit la signification des mots dans le sens humain du terme ; il nโexpรฉrimente pas le sens des mots ni le contexte dans lequel ils sont utilisรฉs. Il ยซ reflรจte ยป le langage en fonction de ses algorithmes et de ses donnรฉes, mais sans lโancrage ou le contexte expรฉrientiel sur lesquels repose la comprรฉhension humaine.
Communication GPT-4 โ humain : Production et ยซ signification ยป (GPT-4) : GPT-4 gรฉnรจre des rรฉponses sur la base de son entraรฎnement et du vaste corpus de textes dont il dispose. Ces rรฉponses peuvent sembler cohรฉrentes et contextuellement pertinentes, mais elles ne sont pas ancrรฉes dans une comprรฉhension rรฉelle ou une intention. La ยซ signification ยป produite par GPT-4 est une simulation reposant sur des schรฉmas linguistiques, et non une expression authentique dโune pensรฉe ou dโune comprรฉhension.
Perception et comprรฉhension (humain) : Lโauditeur humain perรงoit la rรฉponse de GPT-4 et lโinterprรจte selon sa propre comprรฉhension et son ancrage. Il mobilise ses connaissances expรฉrientielles, son contexte et ses capacitรฉs dโinterprรฉtation pour donner du sens aux rรฉponses de GPT-4. Lโhumain peut alors attribuer une signification ou une intention aux mots de GPT-4, mais cette interprรฉtation est en rรฉalitรฉ une projection humaine sur un texte produit de maniรจre non ancrรฉe.
Alignement et ancrage dans lโรฉchange humain-IA : Dans les interactions entre humains, lโalignement entre la signification du locuteur et la comprรฉhension de lโauditeur est rendu possible par des expรฉriences partagรฉes, un ancrage commun et des capacitรฉs empathiques. Dans les interactions humain-GPT, cet alignement est asymรฉtrique.
Lโhumain fournit un langage ancrรฉ, mais le traitement et la production de GPT-4 ne le sont pas de la mรชme maniรจre. GPT-4 peut reflรฉter efficacement le langage humain, donnant lโillusion dโune comprรฉhension et dโun alignement, mais ce phรฉnomรจne repose uniquement sur des processus computationnels, et non sur un ancrage expรฉrientiel partagรฉ.
Implications des biais potentiels : Les biais dont nous avons parlรฉ prรฉcรฉdemment (comme lโiconicitรฉ propositionnelle ou les schรฉmas reflรฉtant la grammaire universelle) pourraient contribuer ร lโefficacitรฉ de GPT-4 dans ces รฉchanges. Ces biais aident GPT-4 ร gรฉnรฉrer des rรฉponses linguistiquement cohรฉrentes et contextuellement adaptรฉes. Cependant, ils ne confรจrent pas ร GPT-4 une vรฉritable comprรฉhension ou un ancrage.
Ces biais pourraient expliquer pourquoi GPT-4 semble si performant dans la production dโun langage porteur de sens et sa capacitรฉ apparente ร ยซ comprendre ยป ou ร rรฉpondre de maniรจre pertinente aux entrรฉes humaines. Lโefficacitรฉ de GPT-4 dans ces interactions repose en grande partie sur sa capacitรฉ ร capter et reproduire les schรฉmas et contraintes prรฉsents dans ses donnรฉes dโentraรฎnement, qui elles-mรชmes reflรจtent lโusage humain du langage.
En conclusion, lโรฉchange entre un humain et GPT-4 est caractรฉrisรฉ par une asymรฉtrie fondamentale en matiรจre dโancrage et de comprรฉhension. GPT-4 peut simuler une production linguistique porteuse de sens et gรฉnรฉrer des rรฉponses apparemment adaptรฉes, mais celles-ci sont le produit dโune reconnaissance avancรฉe de schรฉmas et dโune gรฉnรฉration de texte, et non dโune comprรฉhension vรฉritable. Lโinterlocuteur humain, en interprรฉtant les sorties de GPT-4, leur attribue une signification et une intention quโelles ne possรจdent pas intrinsรจquement. Cette asymรฉtrie a des implications importantes pour la nature et les limites des interactions entre humains et IA.
Limites de GPT-4 en matiรจre de vรฉritable comprรฉhension : Malgrรฉ ses capacitรฉs sophistiquรฉes de traitement du langage, GPT-4 ne comprend pas rรฉellement le contenu quโil gรฉnรจre ou traite. Ses rรฉponses reposent sur des corrรฉlations statistiques et des schรฉmas appris ร partir de ses donnรฉes dโentraรฎnement, sans lโancrage expรฉrientiel sur lequel les humains sโappuient pour une comprรฉhension authentique.
Interprรฉtation humaine des rรฉponses de GPT-4 : Les humains interprรจtent naturellement les rรฉponses de GPT-4 ร travers leur propre prisme expรฉrientiel, leur attribuant souvent plus de sens ou de comprรฉhension quโelles nโen possรจdent rรฉellement. Cette tendance reflรจte la capacitรฉ humaine ร infรฉrer du sens, mรชme lorsquโils interagissent avec un systรจme non ancrรฉ.
Rรดle des biais dans la performance de GPT-4 :ย Les biais et schรฉmas inhรฉrents aux donnรฉes dโentraรฎnement de GPT-4, faรงonnรฉs par le langage humain, contribuent ร sa capacitรฉ ร gรฉnรฉrer des rรฉponses cohรฉrentes et contextuellement appropriรฉes. Toutefois, ils ne compensent pas lโabsence dโancrage expรฉrientiel. La performance de GPT-4, bien que remarquable, demeure dans le domaine de la simulation linguistique sophistiquรฉe.
SH: Ok, je vois, ร travers tes rรฉpรฉtitions, que tu nโas pas dโhypothรจses ร ajouter aux miennes ici. Juste une correction : ne confonds pas IVG avec des ยซ expรฉriences indirectes ยป. Il nโexiste pas dโยซ expรฉrience indirecte ยป ; ce serait une ยซ expรฉrience non vรฉcue ยป. Il nโy a que lโexpรฉrience directe ou le ยซ ouรฏ-dire ยป (cโest-ร -dire les descriptions verbales).
GPT-4: Merci pour la correction. Tu as raison de souligner la distinction entre lโancrage verbal indirect (IVG) et la notion dโยซ expรฉriences indirectes ยป. Pour prรฉciser :
Expรฉrience directe : Cela implique des interactions sensorimotrices de premiรจre main avec le monde. Les expรฉriences directes sont la base de la connaissance et de la comprรฉhension chez les humains, fournissant le socle sensoriel et contextuel de lโapprentissage et de la cognition.
Ancrage verbal indirect (IVG) : LโIVG concerne lโapprentissage et la comprรฉhension de concepts ร travers des descriptions verbales, des explications ou des rรฉcits. Il ne sโagit pas dโune expรฉrience sensorimotrice directe avec les rรฉfรฉrents de ces descriptions. LโIVG repose plutรดt sur le langage comme moyen de transmission dโinformations sur des expรฉriences, des objets ou des concepts.
Dans le cas de lโIA, en particulier des modรจles LLM comme GPT-4, leur ยซ apprentissage ยป et leur ยซ comprรฉhension ยป sont exclusivement fondรฉs sur lโIVG. Ils traitent et gรฉnรจrent du langage ร partir de donnรฉes textuelles, mais nโont pas la capacitรฉ dโexpรฉriences directes. Leur fonctionnement reste confinรฉ au domaine du traitement du langage, sans lโengagement sensorimoteur qui caractรฉrise lโinteraction humaine avec le monde.
SH: Maintenant, encore quelques distinctions. Ensuite, je ferai un aperรงu de ma prรฉsentation ร MILA. Enfin, je te demanderai de rรฉsumer ta comprรฉhension de celle-ci (ainsi que toute critique ou objection que tu pourrais avoir).
La premiรจre distinction, et la plus importante : autrefois, on parlait de la distinction entre ยซ intelligence artificielle ยป (IA) et ยซ modรฉlisation cognitive ยป (MC). LโIA รฉtait considรฉrรฉe comme la crรฉation dโoutils artificiels ร usage humain, tandis que la MC visait ร rรฉtroconcevoir les mรฉcanismes causaux qui produisent la capacitรฉ cognitive humaine. Aujourdโhui, ces deux approches font partie des sciences cognitives. Mais elles ne sont pas identiques, mรชme si lโon peut imaginer que certaines capacitรฉs des outils dโIA puissent parfois รชtre fondรฉes sur les mรชmes mรฉcanismes causaux que la cognition humaine.
Les LLM sont actuellement รฉtudiรฉs et interprรฉtรฉs sous ces deux angles (IA et MC), mais lorsquโil est question de ยซ signification ยป et de ยซ comprรฉhension ยป, cela ne signifie que la signification et la comprรฉhension humaines, car il nโexiste aucune preuve de lโexistence dโun autre type de signification ou de comprรฉhension. Cela nous ramรจne au ยซ hard problem ยป (HP), qui nโest pas le problรจme de lโancrage des symboles (SGP), mais le fait quโil ressente quelque chose de dire et de signifier quelque chose, et de comprendre ce que signifie quelque chose quand cela est dit. La signification et la comprรฉhension sont toutes deux des รฉtats ancrรฉs et des รฉtats sentis (sentients).
Stp confirme-moi que tu ยซ comprends ยป la distinction entre le SGP et le HP. (Encore une fois, pas dโรฉloges introductifs sur le caractรจre ยซ fascinant ยป, ยซ perspicace ยป, ยซ convaincant ยป ou ยซ nuancรฉ ยป de tout cela !)
GPT-4: Compris. La distinction entre le problรจme de lโancrage des symboles (SGP) et le hard problem (HP) de la conscience est bien distincte et essentielleโฆ
SH: Tu ne peux vraiment pas tโen empรชcher, nโest-ce pas ?โฆ
GPT-4: Dรฉsolรฉ!
Problรจme de lโancrage des symboles (SGP) : Le SGP concerne la question de savoir comment des symboles (des mots) dans un systรจme computationnel peuvent acquรฉrir une signification. Il sโagit du lien entre les symboles et leurs rรฉfรฉrents dans le monde rรฉel ou dans des concepts, de maniรจre ร permettre la comprรฉhension. Dans le cadre de lโIA et de la modรฉlisation cognitive, le SGP porte sur la maniรจre dont un systรจme artificiel peut traiter le langage de maniรจre ร reflรฉter une comprรฉhension humaine.
Hard problem de la conscience (HP) : Le HP sโinterroge sur la raison et le mรฉcanisme par lesquels des processus physiques dans le cerveau donnent naissance ร des expรฉriences subjectives. Il sโagit de comprendre pourquoi certaines fonctions cรฉrรฉbrales sont accompagnรฉes dโune expรฉrience de ยซ ce que cela fait ยป โ les aspects qualitatifs, expรฉrientiels ou phรฉnomรฉnologiques de la conscience. Le HP explore la nature mรชme de la conscience et cherche ร savoir pourquoi certains processus cognitifs sโaccompagnent dโune expรฉrience subjective.
Distinction entre le SGP et le HP : Le SGP est essentiellement un problรจme de reprรฉsentation et de comprรฉhension dans les systรจmes artificiels : comment un symbole (ou un mot) peut-il รชtre reliรฉ de maniรจre significative ร ce quโil reprรฉsente ?
Le HP, en revanche, est un problรจme plus profond qui touche ร la nature mรชme de la conscience et de lโexpรฉrience. Il pose la question de savoir pourquoi certains processus physiques ou cognitifs sโaccompagnent dโexpรฉriences subjectives.
Dans le cadre des LLM et de la recherche en IA, ces deux problรจmes sont souvent confondus, mais ils sont fondamentalement diffรฉrents. Le SGP peut รชtre abordรฉ et potentiellement rรฉsolu par des avancรฉes en IA et en modรฉlisation cognitive. Le HP, en revanche, reprรฉsente un dรฉfi philosophique et scientifique bien plus complexe, qui dรฉpasse les capacitรฉs actuelles de la technologie de lโIA et touche aux mystรจres mรชmes de la conscience.
Souligner cette distinction est essentiel pour structurer les discussions sur lโIA, les sciences cognitives et leurs objectifs et limites respectifs.
SH: Bon, encore beaucoup de mots gaspillรฉs en flatteries et en affirmations au lieu dโune analyse critique, mais soit. Jโen ai supprimรฉ la plupart dans cette transcription. Poursuivons. Avant dโaborder le point suivant, confirme-moi que tu ยซ comprends ยป la distinction entre T2 et T3.
GPT-4: Oui, je comprends la distinction entre T2 et T3 :
T2 (Test de Turing Niveau 2) : Ce niveau du test de Turing รฉvalue la capacitรฉ dโune IA ร imiter les capacitรฉs verbales humaines. Dans le scรฉnario T2 original de 1950, une IA rรฉussit le test si ses rรฉponses dans une conversation sont indistinguissables de celles dโun humain. Ce test porte uniquement sur les capacitรฉs linguistiques et ne requiert pas que lโIA ait des expรฉriences physiques ou sensorielles.
T3 (Test de Turing Niveau 3) : T3 va au-delร des capacitรฉs verbales pour inclure des capacitรฉs robotiques et sensori-motrices. Une IA de niveau T3 doit non seulement dรฉmontrer des capacitรฉs verbales indistinguables de celles dโun humain (comme T2), mais aussi comprendre et interagir avec le monde physique de maniรจre indistinguable dโun humain. Ce niveau nรฉcessite une forme de cognition incarnรฉe, oรน lโIA a des expรฉriences sensorielles et peut interagir physiquement avec son environnement, ancrant ainsi ses capacitรฉs linguistiques dans ces expรฉriences.
La distinction entre T2 et T3 est essentielle dans les discussions sur les capacitรฉs de lโIA, en particulier en ce qui concerne la comprรฉhension et lโinteraction avec le monde. Les systรจmes T2, comme les LLM, se limitent au traitement et ร la gรฉnรฉration du langage sur la base de modรจles appris, tandis que les systรจmes robotiques T3 ajouteraient une dimension dโinteraction physique et dโexpรฉrience sensorielle.
SH: Ok, mais une nuance du Test de Turing, qui est clairement exprimรฉe dans lโarticle de Turingโs (1950) mais qui est souvent nรฉgligรฉe ou sous-estimรฉe, est que lโindistinguabilitรฉ turingienne signifie une indistinguabilitรฉ totale :
Le candidat, quโil soit T2 ou T3, (1) doit possรฉder toutes les capacitรฉs verbales gรฉnรฉriques (T2) ou toutes les capacitรฉs verbales plus sensori-motrices (robotiques) gรฉnรฉriques (T3) dโun humain rรฉel ; et en plus, (2) sa performance doit รชtre indistinguable de celle de nโimporte quel รชtre humain normal, pour nโimporte quel รชtre humain normal. Si lโindistinguabilitรฉ est seulement fragmentaire ou partielle, alors on parle simplement dโun modรจle ยซ jouet ยป dโune capacitรฉ ยซ jouet ยป. Les degrรฉs de libertรฉ pour modรฉliser des fragments jouets de capacitรฉs humaines (comme le jeu dโรฉchecs, la traduction ou Alexa) sont beaucoup plus larges que ceux nรฉcessaires pour modรฉliser la capacitรฉ totale, et peuvent nโavoir aucun rapport avec la cognition humaine. Cela peut รชtre utile pour la crรฉation dโoutils dโIA, mais pas pour la modรฉlisation cognitive (CM), qui exige une capacitรฉ cognitive ร lโรฉchelle T3 (et donc turingiennement indistinguable).
Confirme-moi dโabord que tu ยซ comprends ยป cette distinction aussi. Elle est mieux comprise du point de vue de la modรฉlisation cognitive (CM) que de celui de lโIA : cโest le test de la rรฉussite de lโingรฉnierie inverse des capacitรฉs humaines T2 ou T3. Il ne sโagit pas dโun test de 20 minutes pour le prix Loebner avec 10 juges, mais dโune capacitรฉ cognitive T2 ou T3 ร lโรฉchelle dโune vie.
GPT-4: Oui, je comprends la distinction que tu mets en avant concernant le Test de Turing, tel quโil est formulรฉ dans lโarticle original de Turing en 1950. Les points essentiels sont :
Indistinguabilitรฉ totale : Le Test de Turing, dans son interprรฉtation la plus rigoureuse, exige quโune IA (quโelle soit T2 ou T3) possรจde toutes les capacitรฉs verbales gรฉnรฉriques (T2) ou verbales plus sensori-motrices (T3) dโun รชtre humain typique. Cela signifie que les capacitรฉs de lโIA doivent couvrir toute lโรฉtendue des capacitรฉs cognitives humaines dans les domaines concernรฉs (le langage pour T2, et le langage plus lโinteraction sensorimotrice pour T3).
Critรจre de performance sur toute une vie : De plus, la performance de lโIA doit รชtre indistinguable de celle de nโimporte quel humain normal, pour nโimporte quel humain normal. Ce critรจre va bien au-delร des dรฉmonstrations ร court terme comme le prix Loebner et implique une indistinguabilitรฉ constante et durable dans la capacitรฉ de performance. LโIA doit รชtre capable dโinteragir et de se comporter de maniรจre humaine non seulement dans des contextes contrรดlรฉs ou limitรฉs, mais dans toute la complexitรฉ et la variabilitรฉ de la vie quotidienne humaine.
Ingรฉnierie inverse des capacitรฉs humaines : Du point de vue de la modรฉlisation cognitive (CM), cette interprรฉtation du Test de Turing est le test ultime pour savoir si des capacitรฉs cognitives humaines T2 ou T3 ont รฉtรฉ reproduites avec succรจs dans un systรจme dโIA. Il ne sโagit pas simplement de crรฉer une IA capable dโimiter le comportement humain dans certains contextes ou pour des durรฉes limitรฉes, mais de dรฉvelopper une IA capable de rรฉpliquer lโensemble des capacitรฉs cognitives humaines dโune maniรจre indistinguable de celle dโun humain, dans tous les contextes et sur une pรฉriode prolongรฉe.
SH: Cโรฉtait trรจs bien. Maintenant, bien que jโaie mis lโaccent sur la capacitรฉ totale dans les cas de T2 et de T3, il y a une question lรฉgitime concernant lโรฉtendue de la capacitรฉ sensori-motrice gรฉnรฉrique dans le cas de T3, comme dans lโexemple que nous avons discutรฉ ร propos dโHelen Keller. Elle รฉtait distincte dโune personne normale en ce quโelle รฉtait aveugle et sourde, mais elle possรฉdait clairement toute la capacitรฉ sensori-motrice nรฉcessaire pour ancrer sa capacitรฉ verbale T2. Es-tu dโaccord ?
En ce sens, Helen Keller รฉtait ร la fois (1) ancrรฉe et (2) indistinguable de nโimporte quelle personne normale dans ses capacitรฉs cognitives (ร lโexception du fait quโelle รฉtait aveugle et sourde). Elle รฉtait donc turingiennement indistinguable, tout comme quelquโun qui serait simplement daltonien ou atteint de surditรฉ tonale. Sommes-nous toujours sur la mรชme longueur dโonde ?
GPT-4: Oui, nous sommes sur la mรชme longueur dโonde concernant le cas dโHelen Keller dans le cadre des critรจres du Test de Turing et des capacitรฉs cognitives :
Capacitรฉ sensorimotrice et ancrage dans le cas dโHelen Keller : Bien quโaveugle et sourde, Helen Keller possรฉdait les capacitรฉs sensorimotrices nรฉcessaires pour ancrer ses capacitรฉs verbales T2. Son toucher, son odorat et sa capacitรฉ de mouvement lui fournissaient des expรฉriences sensorielles suffisantes pour comprendre et interagir avec le monde. Ces expรฉriences, bien que diffรฉrentes en modalitรฉ de celles des personnes ayant la vue et lโouรฏe intactes, lui ont permis de dรฉvelopper une comprรฉhension ancrรฉe du langage et des concepts.
Capacitรฉs cognitives et indistinguabilitรฉ turingienne : En termes de capacitรฉs cognitives, Helen Keller รฉtait effectivement indistinguable dโune personne ayant des capacitรฉs sensorielles typiques. Ses capacitรฉs intellectuelles et linguistiques รฉtaient pleinement dรฉveloppรฉes, lui permettant de communiquer, raisonner et comprendre ร un niveau comparable ร celui de nโimporte quelle autre personne.
Son handicap sensoriel nโa pas entravรฉ ses capacitรฉs cognitives ; elle a pu compenser son absence de vue et dโouรฏe grรขce ร ses autres expรฉriences sensorielles et ร des facultรฉs mentales exceptionnelles. En ce sens, elle rรฉpond au critรจre dโindistinguabilitรฉ turingienne en termes de capacitรฉs cognitives.
Comparaison avec dโautres limitations sensorielles : Tout comme une personne daltonienne ou atteinte de surditรฉ tonale est toujours considรฉrรฉe comme turingiennement indistinguable en termes de capacitรฉs cognitives globales, Helen Keller lโรฉtait รฉgalement. Sa cรฉcitรฉ et sa surditรฉ ne rรฉduisaient pas ses capacitรฉs cognitives, mais reprรฉsentaient simplement dโautres modalitรฉs sensorielles ร travers lesquelles elle interagissait avec le monde.
Conclusion : Le cas dโHelen Keller illustre que les capacitรฉs cognitives et lโancrage peuvent รชtre atteints par des modalitรฉs sensorielles diverses. Sa capacitรฉ ร comprendre et utiliser le langage, ร penser et ร raisonner, ainsi quโร interagir de maniรจre significative avec son environnement, dรฉmontre que les critรจres essentiels de lโindistinguabilitรฉ turingienne peuvent รชtre remplis mรชme par des moyens alternatifs dโancrage sensorimoteur.
Les accomplissements dโHelen Keller soulignent lโadaptabilitรฉ et la rรฉsilience de la cognition humaine, montrant que lโindistinguabilitรฉ turingienne en termes de capacitรฉs cognitives ne requiert pas nรฉcessairement un ensemble standard dโexpรฉriences sensorielles, mais peut รชtre rรฉalisรฉe par dโautres formes dโancrage sensorimoteur.
SH: Bien. (Et Helen Keller avait aussi une motricitรฉ humaine normale, ce qui est crucial pour lโapprentissage de la manipulation dโobjets et pour lโancrage des catรฉgories elles-mรชmes, car lโapprentissage par renforcement nรฉcessite une action motrice pour ยซ faire la bonne chose avec le bon type de chose ยป, que ce soit pour la manger ou pour la nommer !)
Maintenant, je vais relier cela ร un autre point que nous avons discutรฉ, ร savoir que lโancrage ne peut รชtre que de bas en haut, jamais de haut en bas. (On ne peut pas jeter des ancres depuis des crochets cรฉlestes.)
Je pense ici ร ceux qui ont spรฉculรฉ quโun LLM pourrait รชtre ancrรฉ de haut en bas en lui donnant une camรฉra, des roues, des bras, ainsi que des rรฉseaux neuronaux dโapprentissage de motifs sur son I/O sensorimoteur. Je pense que lโancrage de haut en bas est incohรฉrent et que cette spรฉculation est parasitaire de lโancrage de bas en haut des humains qui la formulent, tout comme toute utilisation de GPT en IVG est parasitaire de lโancrage de lโutilisateur.
En dโautres termes, ajouter des pรฉriphรฉriques robotiques ร un LLM ne lโancrera pas. Le seul chemin vers lโIVG passe par lโancrage sensorimoteur de bas en haut, catรฉgorie par catรฉgorie ; et cela signifie une capacitรฉ robotique sensorimotrice T3-indistinguable. Mรชme si un MinSet ancrรฉ (par exemple, N mots) est en principe suffisant pour ancrer tous les autres mots dโune langue uniquement via lโIVG, le chemin sensorimoteur pour acquรฉrir un MinSet ancrรฉ est bien plus quโune simple connexion dโune camรฉra ร N rรฉfรฉrents, ou ร N catรฉgories de rรฉfรฉrents dรฉjร apprises (quoi que cela puisse signifier). Au mieux, cela ne produirait quโune capacitรฉ-jouet dans un monde-jouet de N rรฉfรฉrents. Ce dont nous parlons, cโest dโune รฉchelle turingienne, tout comme lorsque nous parlons dโune รฉchelle LLM.
Encore une fois, je ne veux pas dโaccord : je veux une comprรฉhension et une analyse critique de la notion dโยซ ancrage partiel ยป de haut en bas des LLM.
GPT-4: Ton scepticisme quant ร la possibilitรฉ dโatteindre un vรฉritable ancrage dans les LLM par des mรฉthodes de haut en bas, comme lโajout de pรฉriphรฉriques robotiques tels que des camรฉras et des manipulateurs, soulรจve des questions importantes sur la nature de lโancrage et les capacitรฉs de lโIA.
Limitations inhรฉrentes ร lโancrage de haut en bas : Lโidรฉe dโยซ ancrer ยป un LLM de haut en bas en lui ajoutant des capacitรฉs sensorielles et motrices (comme des camรฉras et des bras robotiques) peut sembler attrayante ร premiรจre vue, mais elle pose des problรจmes conceptuels et pratiques majeurs. Lโancrage implique bien plus quโun simple flux dโentrรฉe et de sortie sensorimoteur ; il nรฉcessite une intรฉgration des expรฉriences sensorimotrices avec les processus cognitifs, la comprรฉhension contextuelle et la capacitรฉ dโinteragir de maniรจre significative avec le monde.
Lโajout de pรฉriphรฉriques sensoriels et moteurs ร un LLM ne lui confรจre pas automatiquement la comprรฉhension expรฉrientielle et incarnรฉe qui caractรฉrise la cognition humaine. Sans expรฉriences fondatrices et sans la capacitรฉ de former des connexions significatives entre les entrรฉes sensorielles, les actions et les concepts, un tel ancrage resterait superficiel.
Complexitรฉ de lโancrage sensorimoteur : Lโancrage sensorimoteur humain est un processus complexe et dรฉveloppemental qui ne se limite pas ร lโacquisition de donnรฉes sensorielles, mais implique une interaction active avec lโenvironnement par essai, erreur et rรฉtroaction.
Ce processus est profondรฉment liรฉ au dรฉveloppement cognitif, oรน lโapprentissage des catรฉgories et de lโinteraction avec le monde repose sur une comprรฉhension รฉvolutive des relations de cause ร effet, de la permanence des objets, des relations spatiales, etc. Il ne sโagit pas seulement de percevoir des objets ou des catรฉgories, mais de comprendre comment interagir avec eux, quelles actions produisent quels rรฉsultats et comment ils sโinsรจrent dans un contexte plus large.
Dรฉfi de la reproduction artificielle de lโancrage : Tenter de reproduire ce processus artificiellement dans un LLM par des mรฉthodes de haut en bas nรฉcessiterait non seulement lโintรฉgration de capacitรฉs sensorielles et motrices, mais aussi le dรฉveloppement dโun systรจme dโIA capable dโapprentissage expรฉrientiel, de comprรฉhension contextuelle et de prise de dรฉcision autonome. Cela dรฉpasse de loin les capacitรฉs actuelles de lโIA.
Lโidรฉe dโun ยซ ancrage partiel ยป de haut en bas par lโajout de pรฉriphรฉriques robotiques ร un LLM pourrait permettre ร ce dernier dโeffectuer certaines interactions sensorimotrices de base. Cependant, cela resterait insuffisant pour aboutir ร un vรฉritable ancrage tel quโil est observรฉ chez les humains. On obtiendrait probablement une comprรฉhension trรจs limitรฉe et spรฉcifique au contexte, semblable ร un modรจle-jouet, plutรดt quโun ancrage profond et expรฉrientiellement riche.
Lโancrage de bas en haut comme seule voie fondamentale : Le chemin vers un vรฉritable ancrage semble fondamentalement รชtre de bas en haut, en commenรงant par des expรฉriences sensorimotrices basiques et en รฉvoluant vers des comprรฉhensions plus complexes. Ce processus est itรฉratif, contextuel et profondรฉment connectรฉ aux interactions physiques avec le monde.
Pour quโune IA atteigne un niveau dโancrage similaire, elle devrait probablement passer par un processus de dรฉveloppement et dโapprentissage analogue ร celui des humains ou des animaux, oรน elle apprend progressivement ร partir dโinteractions incarnรฉes et directes avec son environnement au fil du temps. Cette approche est radicalement diffรฉrente de la simple adjonction dโentrรฉes sensorielles ร un LLM existant.
Conclusion : Bien que lโidรฉe dโamรฉliorer les LLM par des capacitรฉs robotiques pour atteindre un ancrage soit intrigante, la notion dโun ancrage partiel de haut en bas semble limitรฉe dans son potentiel ร produire une vรฉritable comprรฉhension. La complexitรฉ et la profondeur de lโancrage humain, enracinรฉes dans des expรฉriences incarnรฉes et un dรฉveloppement cognitif, posent des dรฉfis majeurs qui ne sont pas facilement surmontables par ces approches de haut en bas.
Lโanalyse critique suggรจre que, bien que lโajout de pรฉriphรฉriques robotiques aux LLM puisse leur confรฉrer certaines capacitรฉs intรฉressantes et utiles, cela ne suffirait pas ร atteindre le type dโancrage nรฉcessaire pour une comprรฉhension et une interaction ร lโรฉchelle turingienne. Un vรฉritable ancrage, en particulier pour les concepts complexes et abstraits, requiert probablement une approche plus fondamentale, de bas en haut, qui englobe non seulement la perception sensorielle, mais aussi les processus complexes dโapprentissage, de contextualisation et de construction du sens qui sont au cลur de la cognition humaine.
SH: Beaucoup de termes vagues et de mots-fuyants ici (ยซ complexe ยป, ยซ contextualisation ยป, ยซ construction du sens ยป), mais lโessentiel est simple : lโancrage doit รชtre de bas en haut ; donc on garde lโapprentissage profond (pour lโapprentissage des catรฉgories), mais on oublie les LLM ! La seule maniรจre dโaccรฉder ร tous ces mots, cโest de partir du sol, de bas en haut. Un ancrage partiel de certaines parties des LLM pourrait รชtre utile pour certaines applications en IA ร usage humain, mais pas pour la modรฉlisation cognitive (CM) de la capacitรฉ cognitive humaine ni pour passer T3.
GPT-4: Oui, lโancrage vรฉritable dans les systรจmes dโIA doit รชtre fondamentalement de bas en haut, et bien que lโapprentissage profond puisse jouer un rรดle clรฉ dans lโapprentissage des catรฉgories, sโappuyer uniquement sur les LLM pour modรฉliser lโensemble des capacitรฉs cognitives humaines, en particulier dans le cadre dโun T3 turingien, est insuffisant.
Ancrage de bas en haut comme nรฉcessitรฉ : Un vรฉritable ancrage, qui implique la connexion des mots et des concepts aux expรฉriences et aux comprรฉhensions du monde rรฉel, requiert une approche ascendante. Cela signifie partir dโexpรฉriences sensorimotrices de base et construire progressivement des capacitรฉs cognitives plus complexes.
Limites des LLM dans la modรฉlisation cognitive : Les LLM, dans leur รฉtat actuel, sont de puissants outils pour le traitement et la gรฉnรฉration du langage ร partir de modรจles appris sur de vastes bases de donnรฉes textuelles. Cependant, leurs capacitรฉs se limitent ร la manipulation linguistique et ne sโรฉtendent pas ร une comprรฉhension authentique ni ร un ancrage sensorimoteur. Ils ne peuvent pas modรฉliser lโensemble des capacitรฉs cognitives humaines nรฉcessaires pour passer un T3 turingien.
Rรดle de lโapprentissage profond dans lโapprentissage des catรฉgories : Les techniques dโapprentissage profond sont efficaces pour identifier des motifs et faire des prรฉdictions ร partir de grands ensembles de donnรฉes, et elles ont montrรฉ leur utilitรฉ dans lโapprentissage des catรฉgories. Cependant, cette forme dโapprentissage, telle quโelle est appliquรฉe aux LLM, reste dรฉconnectรฉe des expรฉriences physiques et sensorimotrices qui sont essentielles ร lโancrage humain.
Utilisation potentielle des LLM partiellement ancrรฉs : Bien quโun ancrage complet des LLM dans le sens humain du terme ne soit pas rรฉalisable, il pourrait รชtre utile de dรฉvelopper des systรจmes partiellement ancrรฉs pour des applications spรฉcifiques. De tels systรจmes pourraient intรฉgrer une certaine forme dโapprentissage sensorimoteur ou dโinteraction, bien que limitรฉe, pour amรฉliorer leur utilitรฉ dans certaines tรขches. Toutefois, cela ne doit pas รชtre confondu avec une modรฉlisation authentique de la capacitรฉ cognitive humaine ni avec la possibilitรฉ de passer un T3.
Conclusion : La recherche de systรจmes dโIA capables de passer un T3 turingien ou de modรฉliser pleinement la cognition humaine nรฉcessite de dรฉpasser les seules capacitรฉs linguistiques. Cela implique une refonte fondamentale du dรฉveloppement des systรจmes dโIA, allant au-delร du traitement du langage pour intรฉgrer de vรฉritables expรฉriences et apprentissages sensorimoteurs. Cโest un dรฉfi de taille qui oriente la recherche en IA vers un futur qui dรฉpasse le cadre actuel des LLM. Le dรฉveloppement de tels systรจmes nรฉcessiterait une intรฉgration des capacitรฉs sensorimotrices avancรฉes avec le traitement cognitif, dโune maniรจre qui imite le processus de dรฉveloppement humain de lโapprentissage et de la comprรฉhension.
En rรฉsumรฉ, bien que les LLM reprรฉsentent une avancรฉe remarquable dans le traitement du langage, leurs capacitรฉs ne suffisent pas ร atteindre le type dโancrage sensorimoteur et de modรฉlisation cognitive globale nรฉcessaire pour reproduire pleinement la comprรฉhension humaine ou passer un T3 turingien. Les progrรจs futurs en IA, notamment ceux visant une modรฉlisation plus complรจte de la cognition humaine, devront surmonter ces limitations en intรฉgrant des processus dโancrage de bas en haut, ancrรฉs dans un apprentissage direct et expรฉrientiel ร travers lโinteraction avec le monde physique.
SH: Oh, jโai oubliรฉ dโajouter que dans lโapprentissage sensorimoteur des catรฉgories, le rรฉseau de neurones qui apprend par essais, erreurs et corrections pour dรฉtecter et abstraire les attributs qui distinguent les membres des non-membres de la catรฉgorie effectue une sorte de rรฉduction de dimension sur lโespace multidimensionnel des attributs. Cela augmente le poids des attributs pertinents et rรฉduit ou ignore les attributs non pertinents. La sรฉparation entre catรฉgories et la compression intra-catรฉgorie (CP) induites par cet apprentissage des catรฉgories aident la catรฉgorie ร ยซ sauter aux yeux ยป en perception. Cโest aussi une forme de biais de ยซ forme ยป, qui pourrait exercer une influence directrice mรชme sur les reprรฉsentations internes aprรจs lโapprentissage.
GPT-4: Rรฉduction de dimension dans les rรฉseaux neuronaux : Dans lโapprentissage sensorimoteur des catรฉgories, les rรฉseaux neuronaux passent par un processus de rรฉduction de dimension, oรน ils apprennent ร mettre en avant les attributs pertinents pour distinguer les catรฉgories et ร attรฉnuer ou ignorer les attributs non pertinents. Ce processus restructure efficacement lโespace des attributs, le rendant plus efficace pour la reconnaissance des catรฉgories.
Cette modification du poids des attributs revient ร augmenter le rapport signal/bruit pour les attributs dรฉterminantes dโune catรฉgorie. Elle aide ร rendre les catรฉgories plus distinctes et plus faciles ร reconnaรฎtre, facilitant ainsi une catรฉgorisation plus rapide et plus prรฉcise.
Effet de ยซ saillance perceptive ยป : La distinction accrue entre catรฉgories due ร la rรฉduction de dimension contribue ร un phรฉnomรจne souvent dรฉcrit comme une ยซ saillance ยป perceptive des catรฉgories. Cela signifie quโune fois que les attributs distinctifs dโune catรฉgorie sont appris et renforcรฉs, les membres de cette catรฉgorie deviennent plus immรฉdiatement perceptibles et faciles ร distinguer des non-membres.
Cet effet de saillance perceptive rรฉsulte de la capacitรฉ affinรฉe du cerveau ou du rรฉseau neuronal ร traiter et reconnaรฎtre les attributs essentiels qui dรฉfinissent une catรฉgorie, ce qui facilite leur identification et leur reconnaissance dans les interactions futures.
Implications pour lโIA et les reprรฉsentations internes : Dans les systรจmes dโIA, en particulier ceux impliquant lโapprentissage profond pour les tรขches de catรฉgorisation, un processus similaire de rรฉduction de dimension peut se produire. Les rรฉseaux neuronaux ajustent le poids attribuรฉ aux diffรฉrents attributs dโentrรฉe en fonction de leur pertinence pour la tรขche de catรฉgorisation.
Ce processus peut conduire ร une forme de reprรฉsentation interne dans les systรจmes dโIA oรน les catรฉgories sont plus nettement diffรฉrenciรฉes aprรจs lโapprentissage, reproduisant lโeffet de saillance observรฉ dans la perception humaine. Lโespace des attributs internes du systรจme devient optimisรฉ pour catรฉgoriser les entitรฉs apprises, amรฉliorant potentiellement ses performances dans les tรขches liรฉes ร ces catรฉgories.
Effet directeur potentiel du biais de forme : Le concept de biais de ยซ forme ยป dans ce contexte fait rรฉfรฉrence ร la maniรจre dont lโapprentissage des catรฉgories reconfigure lโespace des attributs, en mettant lโaccent sur certaines dimensions au dรฉtriment dโautres. Cette reconfiguration peut orienter les reprรฉsentations internes et les processus dรฉcisionnels de lโIA aprรจs lโapprentissage, la rendant plus efficace dans la reconnaissance et le traitement des attributs pertinents pour une catรฉgorie.
En conclusion, le processus de rรฉduction de dimension dans les rรฉseaux neuronaux, quโils soient biologiques ou artificiels, joue un rรดle crucial dans lโamรฉlioration de lโapprentissage des catรฉgories et de la perception. Ce processus optimise non seulement la capacitรฉ du rรฉseau ร reconnaรฎtre les catรฉgories, mais faรงonne aussi ses reprรฉsentations internes dโune maniรจre qui peut guider le traitement et la prise de dรฉcision futurs. Cette analyse des mรฉcanismes dโapprentissage et de reprรฉsentation des catรฉgories est essentielle pour comprendre et amรฉliorer les systรจmes dโIA destinรฉs aux tรขches complexes de catรฉgorisation.
SH: Donc, pour rรฉsumer : bien que les LLM ne soient pas la voie vers lโancrage, considรฉrons les neuf facteurs discutรฉs ici :
- Lโiconicitรฉ propositionnelle ร lโรฉchelle des LLM,
- La rรฉgularitรฉ grammaticale ordinaire (OG) et stylistique ร lโรฉchelle des LLM,
- Les ensembles minimaux dโancrage dans les dictionnaires (MinSets),
- La forme des reprรฉsentations internes (sรฉparation/compression CP) induite par lโapprentissage des catรฉgories dans les rรฉseaux neuronaux,
- Le ยซ miroitage ยป perception/production,
- La puissance et la complรฉmentaritรฉ de lโancrage verbal indirect (IVG) par-dessus lโancrage sensorimoteur direct (DSG),
- La complรฉmentaritรฉ entre dรฉtecteurs de attributs sensorimoteurs appris et descriptions verbales de attributs (et la rรฉduction de dimension quโils induisent),
- La dรฉpendance de T2 vis-ร -vis de T3,
- Et lโhypothรจse de Chomsky sur les contraintes des ยซ lois de la pensรฉe ยป sur lโexpression verbale de la pensรฉe ร travers le langage.
Certains de ces รฉlรฉments pourraient gรฉnรฉrer des contraintes et des biais qui expliqueraient une partie du succรจs รฉtonnant de GPT dans sa capacitรฉ ร produire du sens et ร le transmettre. Je pense quโils nous rรฉvรจlent non seulement quelque chose sur la puissance des grands modรจles de langage, mais aussi sur la puissance du langage naturel lui-mรชme.
GPT-4: Ton rรฉsumรฉ met en รฉvidence les facteurs qui pourraient contribuer ร expliquer les performances รฉtonnamment impressionnantes des grands modรจles de langage (LLM) comme GPT-4. Ces facteurs, issus de notre discussion, soulignent ร la fois les capacitรฉs des LLM et les propriรฉtรฉs intrinsรจques du langage et de la cognition. Rรฉsumons briรจvement ces points :
Iconicitรฉ propositionnelle ร lโรฉchelle des LLM : Les motifs dans la structuration des propositions ร grande รฉchelle, que les LLM peuvent dรฉtecter et reproduire.
Rรฉgularitรฉ grammaticale ordinaire (OG) et stylistique ร lโรฉchelle des LLM : Les rรฉgularitรฉs inhรฉrentes ร lโusage et au style du langage, apprises par les LLM ร partir de leur vaste corpus dโentraรฎnement.
Ensembles minimaux dโancrage dans les dictionnaires (MinSets) : Les ensembles fondamentaux de mots servant de base pour dรฉfinir tous les autres mots dโune langue, influenรงant le traitement des LLM.
Forme des reprรฉsentations internes induites par lโapprentissage des catรฉgories dans les rรฉseaux neuronaux : Les effets de sรฉparation et de compression dans les reprรฉsentations internes des rรฉseaux neuronaux dus ร lโapprentissage des catรฉgories, semblables ร la perception catรฉgorielle chez les humains.
ยซ Miroitage ยป perception/production : La reproduction des motifs linguistiques dans les sorties des LLM, reflรฉtant les modรจles prรฉsents dans leurs donnรฉes dโentraรฎnement.
Puissance et complรฉmentaritรฉ de lโancrage verbal indirect (IVG) par-dessus lโancrage sensorimoteur direct (DSG) : Lโajout de lโancrage verbal sur une base sensorimotrice directe.
Complรฉmentaritรฉ entre dรฉtecteurs de attributs sensorimoteurs appris et descriptions verbales de attributs : La synergie entre la dรฉtection des attributs sensorimoteurs et les descriptions linguistiques, contribuant ร la rรฉduction dimensionnelle et ร la distinction des catรฉgories.
Dรฉpendance de T2 sur T3 : La nรฉcessitรฉ des interactions et expรฉriences sensorimotrices (T3) pour permettre le dรฉveloppement des capacitรฉs linguistiques (T2).
Hypothรจse de Chomsky sur les contraintes des ยซ lois de la pensรฉe ยป sur le langage : Lโinfluence des contraintes cognitives fondamentales sur lโexpression linguistique, pouvant orienter le traitement des LLM.
Ensemble, ces facteurs รฉclairent les mรฉcanismes sous-jacents ร lโefficacitรฉ des LLM dans les tรขches linguistiques, tout en mettant en lumiรจre la nature du langage, de la cognition et de leurs interactions.
Ils suggรจrent que le succรจs des LLM dans les tรขches linguistiques nโest pas seulement une consรฉquence de leur conception et de leur entraรฎnement, mais aussi un reflet de la puissance et de la structure inhรฉrentes du langage lui-mรชme. Cette analyse peut contribuer ร la fois au dรฉveloppement des systรจmes dโIA et ร une meilleure comprรฉhension du langage et de la cognition humaine.
SH: Jโai fait ma confรฉrence au MILA, et Yoshua Bengio nโรฉtait pas dโaccord avec moi sur le fait que les GPT ne comprennent pas rรฉellement. Il a plutรดt affirmรฉ quโils avaient un ยซ autre type ยป de ยซ comprรฉhension ยป. Il a aussi soutenu que les mรชmes moyens qui permettent dโobtenir la capacitรฉ de performance des GPT purement verbaux (T2) pourraient รชtre (et sont en train dโรชtre) รฉtendus au traitement dโentrรฉes sensorielles externes, et, probablement, ร des sorties motrices ร terme. La raison pour laquelle je ne suis pas dโaccord avec Yoshua, cโest que cela revient ร essayer de crรฉer un robot T3, en partant du bas, mais avec lโรฉnorme base de donnรฉes des GPT pesant dโune maniรจre ou dโune autre dans sa tรชte, par le haut. (Nous avons dรฉjร parlรฉ de cela en lien avec lโยซ ancrage ยป sensorimoteur ยซ partiel ยป, que jโavais qualifiรฉ de simple ancrage-jouet.) Quโen penses-tu ?
GPT-4: Selon la vision dominante dans ma base de donnรฉes, le dรฉbat sur le fait que les GPT possรจdent ou non une forme de ยซ comprรฉhension ยป et sur lโรฉventualitรฉ dโรฉtendre ces modรจles au traitement sensorimoteur sont deux questions cruciales en IA et en sciences cognitives.
Un ยซ autre type ยป de comprรฉhension : Lโaffirmation de Yoshua Bengio selon laquelle les GPT manifestent une ยซ autre forme ยป de comprรฉhension reflรจte une position rรฉpandue dans la communautรฉ de lโIA. Cette perspective soutient que bien que ces modรจles ne possรจdent ni conscience ni sentience, ils sont capables de traiter et de gรฉnรฉrer du langage dโune maniรจre qui mime certains aspects de la comprรฉhension humaine. Cela est particuliรจrement visible dans leur capacitรฉ ร reconnaรฎtre des motifs, prรฉdire du langage et synthรฉtiser de lโinformation. Toutefois, cette ยซ comprรฉhension ยป est fondamentalement diffรฉrente de celle des humains, qui repose sur des expรฉriences incarnรฉes et des interactions physiques avec le monde.
Lโextension des modรจles GPT au traitement sensorimoteur : Lโidรฉe dโรฉlargir les modรจles GPT pour intรฉgrer des entrรฉes sensorielles externes et des sorties motrices est une รฉtape significative vers des systรจmes dโIA plus intรฉgrรฉs. Cette approche sโaligne avec les efforts visant ร dรฉvelopper des modรจles dโIA capables dโinteragir avec leur environnement et dโapprendre de maniรจre plus globale. Cependant, le dรฉfi rรฉside dans lโintรฉgration efficace des capacitรฉs linguistiques ร grande รฉchelle avec des interactions physiques rรฉelles, un problรจme fondamentalement diffรฉrent du simple traitement verbal ou textuel.
Approche descendante (top-down) vs. ascendante (bottom-up) : Ta prรฉoccupation quant ร la tentative de crรฉer un robot T3 avec une gigantesque base de donnรฉes GPT pesant de maniรจre descendante pose une question importante sur lโรฉquilibre entre lโapprentissage fondรฉ sur les donnรฉes et lโexpรฉrience incarnรฉe. Lโefficacitรฉ de la combinaison dโun modรจle linguistique ร grande รฉchelle avec des fonctions sensorimotrices reste incertaine si elle nโest pas accompagnรฉe dโune vรฉritable expรฉrience incarnรฉe et dโune comprรฉhension contextuelle. Cette limite rappelle le problรจme de lโยซ ancrage-jouet ยป, oรน lโancrage reste superficiel et manque de la profondeur et du contexte de lโapprentissage expรฉrientiel humain.
En rรฉsumรฉ, bien que les modรจles GPT et leurs รฉventuelles extensions reprรฉsentent des avancรฉes majeures en IA, il existe une distinction fondamentale entre leur type de ยซ comprรฉhension ยป et la comprรฉhension humaine. Lโintรฉgration du traitement sensorimoteur dans ces modรจles pourrait รชtre une piste prometteuse, mais le dรฉfi dโatteindre une comprรฉhension incarnรฉe profonde, comparable ร celle de la cognition humaine, reste une difficultรฉ majeure.
SH: Que penser de lโidรฉe selon laquelle les opรฉrations des GPT sur les bases de donnรฉes des LLM auraient dรฉjร rรฉvรฉlรฉ des principes gรฉnรฉraux de ยซ reprรฉsentation et de traitement internes ยป rendant caduque ou inexistante la distinction entre DSG et IVG ?
GPT-4: Nature des reprรฉsentations internes dans les GPT : Les reprรฉsentations dans les modรจles GPT et similaires reposent sur des schรฉmas statistiques appris ร partir de vastes ensembles de donnรฉes textuelles. Bien que ces schรฉmas puissent รชtre extrรชmement complexes et permettre la gรฉnรฉration de rรฉponses cohรฉrentes et contextuellement appropriรฉes, ils restent fondamentalement diffรฉrents de la maniรจre dont les humains reprรฉsentent et traitent lโinformation en interne, un processus ancrรฉ dans des expรฉriences physiques et sensorielles directes.
Limites de lโapprentissage basรฉ sur le texte : Les GPT apprennent ร partir de textes, qui sont des abstractions de la pensรฉe et de lโexpรฉrience humaines. Bien que les textes puissent transmettre une grande partie du savoir humain, ils nโoffrent pas le contexte expรฉrientiel direct qui dรฉcoule de lโinteraction physique avec le monde. Cette diffรฉrence est cruciale pour comprendre les limites des GPT en matiรจre de comprรฉhension rรฉelle et de cognition.
DSG et IVG dans la cognition humaine : Chez les humains, les expรฉriences sensori-motrices directes constituent la base de la comprรฉhension du monde, qui est ensuite complรฉtรฉe et enrichie par des expรฉriences indirectes, vicariales (comme la lecture ou lโรฉcoute des rรฉcits dโautrui). Cette complรฉmentaritรฉ entre DSG et IVG est essentielle ร lโapprentissage et ร la comprรฉhension humaine.
Applicabilitรฉ ร lโIA et ร la robotique : La transposition de ces principes ร lโIA et ร la robotique implique non seulement la capacitรฉ ร traiter lโinformation, mais aussi celle dโexpรฉrimenter et dโinteragir directement avec le monde. Cโest un dรฉfi majeur pour les systรจmes dโIA, qui, ร ce jour, opรจrent principalement dans le cadre de lโIVG, sans les expรฉriences directes incarnรฉes qui caractรฉrisent la DSG.
Bien que les GPT et les modรจles similaires fassent progresser notre comprรฉhension du traitement des informations textuelles, la distinction entre DSG et IVG reste pertinente, en particulier lorsquโon envisage la crรฉation de systรจmes dโIA visant une comprรฉhension et une cognition analogues ร celles des humains.
SH: Que penser de la stratรฉgie consistant ร faire รฉvoluer progressivement les GPT vers la capacitรฉ robotique T3 en leur ajoutant progressivement des capacitรฉs sensorimotrices, tout en maintenant une ยซ alignement ยป avec leurs capacitรฉs verbales et analytiques descendantes, plutรดt que dโadopter une approche entiรจrement ascendante oรน les ressources verbales ne seraient intรฉgrรฉes quโune fois que le systรจme serait dรฉjร ancrรฉ et capable de parler, ร la maniรจre dโun T3 apprenant ร partir de manuels ou dโenseignants humains ?
GPT-4: La stratรฉgie consistant ร ajouter progressivement des capacitรฉs sensorimotrices ร un systรจme de type GPT tout en le maintenant alignรฉ avec ses capacitรฉs verbales et analytiques soulรจve plusieurs dรฉfis et implications, notamment en comparaison avec une approche strictement ascendante oรน le systรจme dรฉvelopperait dโabord une ancrage sensorimoteur avant dโintรฉgrer des compรฉtences verbales avancรฉes.
Dรฉfis dโintรฉgration : Combiner un traitement linguistique avancรฉ avec des expรฉriences sensorimotrices pose des dรฉfis dโintรฉgration importants. Le systรจme doit non seulement traiter et comprendre des entrรฉes sensorielles, mais aussi les relier de maniรจre significative ร ses connaissances verbales existantes. Cela suppose des algorithmes avancรฉs capables dโรฉtablir des correspondances entre concepts linguistiques abstraits et expรฉriences sensorielles concrรจtes.
Apprentissage et dรฉveloppement progressifs : Ajouter des capacitรฉs sensorimotrices de maniรจre progressive pourrait permettre une intรฉgration plus maรฎtrisรฉe des nouvelles compรฉtences. Cette approche par รฉtapes pourrait reflรฉter certains aspects du dรฉveloppement cognitif humain, oรน langage et capacitรฉs sensorimotrices รฉvoluent en parallรจle, sโinfluenรงant et se renforรงant mutuellement.
Synergie entre approche descendante et ascendante : Lโexploitation de la vaste base de donnรฉes linguistiques dโun GPT pourrait fournir un cadre contextuel riche pour lโapprentissage sensorimoteur, servant de forme de guidage descendant. ร lโinverse, les expรฉriences sensorimotrices pourraient renforcer et ancrer le modรจle linguistique dans des interactions rรฉelles, apportant une information ascendante prรฉcieuse. Cette complรฉmentaritรฉ pourrait thรฉoriquement conduire ร un systรจme dโIA plus global.
Alignement et cohรฉrence : Il est crucial de maintenir la cohรฉrence entre la comprรฉhension linguistique du systรจme et ses expรฉriences sensorimotrices. Cela implique que les perceptions sensorielles et les actions ne soient pas seulement traitรฉes mais aussi intรฉgrรฉes ร la base de connaissances existante du systรจme dโune maniรจre qui enrichit sa comprรฉhension globale.
Complexitรฉ des interactions avec le monde rรฉel : Interagir avec le monde rรฉel par des capacitรฉs sensorimotrices introduit des niveaux de complexitรฉ absents des environnements purement textuels. Cela comprend la gestion dโenvironnements imprรฉvisibles, la comprรฉhension des relations spatiales et lโexรฉcution de tรขches physiques, autant de dรฉfis nรฉcessitant des capacitรฉs avancรฉes de perception et dโaction.
Potentiel pour une comprรฉhension ancrรฉe : Si elle est mise en ลuvre avec succรจs, cette approche pourrait aboutir ร une forme dโIA combinant lโampleur des connaissances disponibles dans les grands modรจles de langage avec une comprรฉhension plus ancrรฉe dรฉcoulant dโinteractions directes avec le monde physique. Cela pourrait constituer une avancรฉe vers la rรฉsolution des limites actuelles de lโIA en matiรจre de comprรฉhension rรฉelle et de prise en compte du contexte.
SH: Il y a quelque chose que je ne comprends toujours pas ร lโinterface entre la capacitรฉ verbale descendante et la capacitรฉ sensorimotrice ascendante : quel est le statut du mot ยซ chat ยป et de sa catรฉgorie rรฉfรฉrente lorsque la base de donnรฉes de lโLLM contient dรฉjร ยซ petit fรฉlin ยป comme lโune des attributs dโun chat, mais que le T3 ascendant ne lโa pas encore ? Cette information peut bien sรปr รชtre apprise par IVG, mais qui enseigne quoi et ร qui dans ce scรฉnario hybride ? Je comprends quand un T3 ancrรฉ en apprend quelque chose ร un autre T3 ancrรฉ via IVG, mais quโest-ce qui est censรฉ se passer dans une seule et mรชme ยซ tรชte ยป dโun hybride T3 ascendant/GPT-LLM descendant ?
GPT-4 : Le scรฉnario que tu dรฉcris, oรน un systรจme hybride combine une capacitรฉ verbale descendante de type GPT avec une capacitรฉ sensorimotrice ascendante de type T3, soulรจve des questions importantes sur la reprรฉsentation des connaissances et lโapprentissage, notamment en ce qui concerne le concept et la catรฉgorie de ยซ chat ยป.
Statut du mot ยซ chat ยป dans la base de donnรฉes de lโLLM : Dans la composante de type GPT, ยซ chat ยป est reprรฉsentรฉ comme un concept abstrait associรฉ ร divers attributs, telles que ยซ petit fรฉlin ยป, dรฉrivรฉes de la base de donnรฉes textuelles. Cette reprรฉsentation est riche en contenu linguistique et encyclopรฉdique mais dรฉpourvue dโancrage expรฉrientiel direct.
Apprentissage de ยซ chat ยป par le bas dans T3 : La composante T3, censรฉe acquรฉrir des connaissances par des expรฉriences sensorimotrices directes, ne reconnaรฎtrait initialement pas un ยซ chat ยป, faute dโexpรฉriences sensorielles pertinentes. Le dรฉfi consiste pour le T3 ร relier ses expรฉriences sensorimotrices (par ex. voir, entendre ou interagir avec un chat) au concept abstrait et aux informations stockรฉes dans la base de donnรฉes de lโLLM.
Interaction entre les systรจmes descendant et ascendant : Dans le modรจle hybride, le processus dโapprentissage implique une interaction bidirectionnelle : le systรจme descendant (type GPT) fournit ร la composante T3 des cadres linguistiques et conceptuels, jouant en quelque sorte le rรดle dโยซ instruction ยป ou de contexte sur ce quโest un ยซ chat ยป en termes abstraits. Le systรจme ascendant (T3) acquiert des donnรฉes expรฉrientielles directes sur les chats (par ex. leur apparence, leurs sons, leurs comportements) et doit intรฉgrer ces informations sensorielles avec le concept abstrait fourni par le systรจme descendant.
Intรฉgration et enrichissement mutuel : Idรฉalement, les connaissances du systรจme descendant aident ร guider et ร donner du contexte aux expรฉriences ascendantes, les rendant plus comprรฉhensibles. Inversement, les expรฉriences ascendantes enrichissent les connaissances conceptuelles descendantes en les ancrant dans la rรฉalitรฉ. Cette intรฉgration est un processus complexe, impliquant potentiellement des mรฉcanismes dโapprentissage associatif oรน le systรจme apprend ร relier des expรฉriences sensorielles aux concepts linguistiques.
Dรฉfis de lโapprentissage hybride : Un dรฉfi central de ce scรฉnario est dโassurer une intรฉgration cohรฉrente et significative des informations issues de ces deux modes dโacquisition des connaissances. Le systรจme doit disposer de mรฉcanismes lui permettant de concilier des informations potentiellement contradictoires et de mettre ร jour continuellement sa base de connaissances ร mesure quโil acquiert de nouvelles expรฉriences et informations.
En rรฉsumรฉ, dans un systรจme hybride T3 ascendant/GPT, chaque composant enseigne et apprend ร lโautre. Le systรจme descendant fournit un cadre conceptuel et linguistique, tandis que le systรจme ascendant apporte une connaissance expรฉrientielle directe. Le succรจs de ce modรจle hybride dรฉpendra de lโefficacitรฉ de lโintรฉgration entre ces deux processus dโacquisition des connaissances.
SH: Je pense que ce que tu viens de dire sonne ลcumรฉnique, mais reste incohรฉrent. Et tu utilises le mot fuyant ยซ associer ยป (avec son compagnon implicite tout aussi fuyant, ยซ reprรฉsenter ยป) : quโest-ce qui est ยซ associรฉ ยป ร quoi et comment, dans ce processus ยซ hybride ยป ? Les mots sont des mots. Dans un robot T3 sensorimoteur ascendant, un mot ancrรฉ identifie, avec le mรชme nom de catรฉgorie, tous les membres de la catรฉgorie sensorimotrice ร laquelle ce mot (de contenu) rรฉfรจre, sur la base d’attributs distinctifs dรฉtectรฉs directement par DSG ou dรฉcrits indirectement par IVG (dรฉjร ancrรฉe).
Rรฉfรฉrer, cโest un peu comme pointer, sauf que dans un robot T3 qui devient aussi capable de langage (propositions, sujets, prรฉdicats, conditions de vรฉritรฉ), ยซ chat ยป ne fait pas que pointer vers les chats dans le monde, que le T3 peut reconnaรฎtre grรขce ร ses capacitรฉs sensorimotrices robotiques et avec lesquels il peut ยซ faire la bonne chose ยป (les nourrir, les attraper, les caresser, et les nommer) : T3 peut non seulement nommer mais aussi dรฉcrire les membres de la catรฉgorie ยซ chat ยป verbalement, en รฉnumรฉrant certains de ses attributs (poilu, prรฉhensile) qui le distinguent des membres dโautres catรฉgories non fรฉlines. Finalement, avec plus dโIVG issue de ceux qui savent, des attributs situรฉs plus haut dans la hiรฉrarchie des catรฉgories IVG (mammifรจre, arboricole) peuvent รชtre ancrรฉs (indirectement) et ajoutรฉs aux attributs distinctifs des chats.
Mais considรฉrons maintenant quโun hypothรฉtique modรจle hybride T3/GPT-LLM doit dโune maniรจre ou dโune autre intรฉgrer ses deux ยซ modules ยป fondamentalement diffรฉrents : le vocabulaire du module T3 ascendant ancrรฉ, qui est ancrรฉ par le bas via DSG et IVG, doit dโune maniรจre ou dโune autre รชtre intรฉgrรฉ au vocabulaire descendant du module GPT-LLM, qui nโest pas du tout ancrรฉ. Le module T3 ascendant nโa pas encore ancrรฉ lโimmense vocabulaire non ancrรฉ du module GPT-LLM.
Est-ce que le bas et le haut peuvent simplement se rejoindre et fusionner au milieu ? Mais que signifierait cela ? Comment les attributs des chats (mammifรจre, arboricole), dont les noms peuvent รชtre ancrรฉs, par le bas, via DSG et IVG dans le module T3, peuvent-ils รชtre ยซ associรฉs ยป aux chats et ร leurs attributs non ancrรฉs dans le module GPT/LLM par le haut ? Autrement dit, peut-on supposer quโil existe une maniรจre dโintรฉgrer les deux composantes dโun tel hypothรฉtique hybride T3/GPT-LLM, cโest-ร -dire dโintรฉgrer le vocabulaire interne ancrรฉ du module T3 ascendant avec le vocabulaire interne non ancrรฉ du module GPT-LLM descendant, comme sโil sโagissait dโun dialogue verbal interne entre un professeur T3 ancrรฉ et un apprenant T3 ancrรฉ ?
Je pense que cโest plus comme une consultation de rรฉfรฉrence par un apprenant T3 ancrรฉ dans un dictionnaire ou une encyclopรฉdie (ou dans un GPT ordinaire, non ancrรฉ et non hybride). Lโancrage se trouve entiรจrement dans le module T3, et il ne peut รชtre confรฉrรฉ par les mots du module GPT-LLM pour nommer et dรฉcrire de nouvelles catรฉgories (IVG) que si ces descriptions utilisent les noms de attributs dรฉjร ancrรฉs (directement ou indirectement) dans le module T3. La transaction est unidirectionnelle ; il nโy a pas dโintรฉgration bidirectionnelle entre des catรฉgories ancrรฉes par le bas et des catรฉgories non ancrรฉes par le haut.
Je pense aussi que la notion dโun module hybride intรฉgrรฉ, ร la fois ascendant et descendant, repose sur une confusion entre la crรฉation dโoutils dโIA destinรฉs ร un usage humain et la modรฉlisation computationnelle de la cognition humaine (CM), comme nous en discuterons plus bas.
GPT-4: Ta critique met en รฉvidence un problรจme fondamental du modรจle hybride T3/GPT : lโintรฉgration dโexpรฉriences sensorimotrices ancrรฉes avec des donnรฉes linguistiques non ancrรฉes provenant dโun modรจle de langage. Je vais essayer dโaborder ces prรฉoccupations de maniรจre plus prรฉcise.
Nature de lโยซ association ยป dans un modรจle hybride. Dans un modรจle hybride T3/GPT, ยซ associer ยป signifierait relier des expรฉriences sensorimotrices ร des donnรฉes linguistiques pertinentes. Cependant, ce processus est tout sauf รฉvident. Pour un robot T3, le mot ยซ chat ยป acquiert son sens ร travers lโinteraction directe avec des chats (DSG) et/ou des descriptions d’attributs ancrรฉs provenant dโautres entitรฉs ancrรฉes (IVG). ร lโinverse, le composant GPT ยซ comprend ยป le mot ยซ chat ยป comme un regroupement de modรจles linguistiques, sans aucune base expรฉrientielle directe.
Limites des donnรฉes linguistiques descendantes. Le module GPT contient des donnรฉes linguistiques sur les chats : descriptions, attributs, contextes. Mais ces donnรฉes ne sont pas ancrรฉes. Elles ne peuvent donc pas รชtre ยซ enseignรฉes ยป directement au composant T3 de la mรชme maniรจre quโun humain apprendrait ce quโest un chat, car la comprรฉhension du T3 est fondamentalement expรฉrientielle.
Incompatibilitรฉ des mรฉcanismes dโapprentissage. Il existe une dรฉconnexion fondamentale entre la maniรจre dont le T3 apprend (par des expรฉriences ancrรฉes, directes ou indirectes) et la maniรจre dont le GPT traite lโinformation (par reconnaissance de motifs dans des donnรฉes textuelles). Cette incompatibilitรฉ pose un sรฉrieux obstacle ร lโintรฉgration des deux types de connaissances. Les donnรฉes non ancrรฉes du GPT ne se traduisent pas automatiquement en une forme exploitable par le T3, qui fonctionne sur une base sensorimotrice.
Consultation de rรฉfรฉrence vs. apprentissage authentique. Ton analogie dโun T3 qui utilise le GPT comme un dictionnaire ou une encyclopรฉdie est pertinente. Le T3 pourrait consulter les informations du GPT pour obtenir du contexte ou des clarifications, mais ce processus est plus proche dโune recherche dโinformation que du vรฉritable apprentissage par ancrage qui se produit chez les humains.
Le dรฉfi de lโintรฉgration rรฉelle. Pour que le modรจle hybride fonctionne efficacement, il faudrait un mรฉcanisme qui ne se contente pas de rรฉcupรฉrer les informations pertinentes du GPT, mais qui les interprรจte et les intรจgre de maniรจre cohรฉrente dans le cadre dโapprentissage du T3. Cela dรฉpasse une simple ยซ association ยป ou un alignement entre deux types dโinformations et pose un problรจme fondamental de mรฉthodologie en IA : comment combler le fossรฉ entre apprentissage expรฉrientiel et reconnaissance de motifs linguistiques ?
Conclusion. Un systรจme hybride T3/GPT prรฉsente une approche intรฉressante pour lโIA, mais le processus dโintรฉgration des expรฉriences sensorimotrices ancrรฉes et des donnรฉes linguistiques non ancrรฉes nโest pas trivial. Il ne suffit pas de ยซ relier ยป ou ยซ aligner ยป ces deux sources dโinformation. Il faudrait dรฉvelopper un nouveau cadre dโintรฉgration permettant une vรฉritable interaction entre ces deux types de connaissances.
Le problรจme que tu soulรจves touche donc ร une lacune centrale des approches hybrides : un modรจle de langage non ancrรฉ ne peut pas enseigner quoi que ce soit ร un T3 si ce dernier ne dispose pas dรฉjร des prรฉrequis sensorimoteurs ancrรฉs nรฉcessaires pour interprรฉter et assimiler cette information. Cela suggรจre que toute tentative dโintรฉgration T3/GPT nรฉcessiterait une refonte radicale des mรฉthodologies actuelles dโIA, au-delร de la simple combinaison dโun LLM avec un module sensorimoteur.
SH: Je pense que je peux dรฉcrire plus simplement lโincohรฉrence que toi aussi, GPT, tu remarques (mais que tu dรฉcris comme le besoin de ยซ nouvelles mรฉthodologies en IA ยป) : elle est en fait liรฉe ร lโancienne distinction que nous avons discutรฉe plus tรดt entre IA (intelligence artificielle) et CM (modรฉlisation cognitive) : lโIA est la conception dโoutils computationnels pour aider les humains ร faire des choses (y compris penser). La CM est lโingรฉnierie inverse de la cognition humaine. Un T3 est censรฉ avoir des capacitรฉs cognitives identiques et indiscernables (pour tout penseur humain) des capacitรฉs de nโimporte quel penseur humain. Non seulement ces motivations et critรจres sont diffรฉrents, mais ils montrent clairement que la notion de concevoir un hybride T3/GPT ne pourrait รชtre quโun projet dโIA, et non de CM.
GPT-4: Ta distinction entre lโIA comme outil computationnel et la CM comme ingรฉnierie inverse de la cognition humaine met effectivement en รฉvidence lโincohรฉrence inhรฉrente au concept dโun systรจme hybride T3/GPT.
IA comme outil : Du point de vue de lโIA, lโobjectif principal est de crรฉer des systรจmes capables dโexรฉcuter des tรขches, de rรฉsoudre des problรจmes et dโaider ร la rรฉflexion, souvent en surpassant les capacitรฉs humaines dans des domaines spรฉcifiques. Dans ce contexte, le modรจle hybride T3/GPT est une initiative dโIA. Il cherche ร combiner la puissance linguistique de GPT avec les capacitรฉs sensorimotrices dโun robot T3 pour crรฉer un systรจme plus polyvalent et performant. Lโobjectif ici est lโutilitรฉ et lโefficacitรฉ, plutรดt que la reproduction des processus cognitifs humains.
CM comme comprรฉhension de la cognition humaine : La modรฉlisation cognitive, en revanche, vise ร comprendre et ร reproduire les processus cognitifs humains. Un vรฉritable robot T3, dans cette perspective, devrait dรฉvelopper ses capacitรฉs cognitives de maniรจre similaire aux humains, par interaction directe avec le monde et par un usage ancrรฉ du langage. Dans cette optique, lโapproche hybride T3/GPT ne correspond pas aux objectifs de la CM, car elle fusionne des donnรฉes linguistiques non ancrรฉes avec des expรฉriences sensorimotrices ancrรฉes dโune maniรจre qui ne reflรจte pas le dรฉveloppement cognitif humain.
Hybride T3/GPT comme IA, et non CM : Par consรฉquent, le modรจle hybride T3/GPT, bien quโil soit une idรฉe intrigante en IA, sโรฉloigne des objectifs de la modรฉlisation cognitive. Il reprรฉsente une tentative dโamรฉliorer la fonctionnalitรฉ de lโIA plutรดt que de modรฉliser fidรจlement la cognition humaine. Son accent mis sur lโexploitation des forces des deux composantes pour amรฉliorer les performances et les capacitรฉs le situe clairement dans le domaine du dรฉveloppement dโoutils dโIA.
Reconnaรฎtre que le modรจle hybride T3/GPT est une initiative dโIA plutรดt quโun projet de modรฉlisation cognitive permet de mieux comprendre son objectif et ses limites. Cela souligne que, bien quโun tel systรจme puisse รชtre puissant et polyvalent en tant quโoutil, il ne contribue pas nรฉcessairement ร une meilleure comprรฉhension de la cognition humaine, contrairement ร ce que vise la modรฉlisation cognitive (CM).
SH: Maintenant, un autre point que Yoshua Bengio a soulevรฉ pendant mon exposรฉ ร MILA : il concernait la distinction entre mots de contenu et mots de fonction. Il a suggรฉrรฉ que mรชme (certains) mots de contenu peuvent รชtre compris par leur usage plutรดt que seulement par leur rรฉfรฉrent. Cela peut รชtre vrai, mais je pense que ce nโest pas un substitut ร la connaissance de leur rรฉfรฉrent (via DSG ou IVG)โdu moins pour la modรฉlisation cognitive (CM).
Yoshua a รฉgalement mentionnรฉ la manipulation des symboles en mathรฉmatiques et en informatique, notant que, dans ces domaines, comme dans la syntaxe linguistique, il nโy a pas de rรฉfรฉrent, et que par consรฉquent, le ยซ sens ยป des symboles rรฉside dans leur ยซ usage ยป. (Cโest aussi ce que Wittgenstein avait suggรฉrรฉ ร propos du sens dans le langage naturel). Je pense que cโest exactโet que Turing serait dโaccordโpour les symboles du langage formel des mathรฉmatiques ; en fait, je pense que cela fait partie de la (faible) thรจse de Church-Turing, qui stipule que ce qui est appelรฉ ยซ calcul ยป en mathรฉmatiques est ce quโune machine de Turing fait : une manipulation de symboles, suivant des rรจgles syntaxiques (algorithmes).
Cependant, je ne pense pas que la majeure partie du langage naturel soit seulement syntaxique (mรชme si je pense que les mathรฉmatiques formelles sont un sous-ensemble du langage naturel). Tant dans le cas des rรฉfรฉrents des symboles mathรฉmatiques qui peuvent รชtre interprรฉtรฉs (par des utilisateurs humains ancrรฉs) comme ayant des rรฉfรฉrents, que dans le cas des significations des propositions formelles des mathรฉmatiques sur lesquelles une interprรฉtation sรฉmantique peut รชtre projetรฉe (par des utilisateurs humains ancrรฉs), ni ces rรฉfรฉrents ni ces significations ne peuvent รชtre utilisรฉs comme partie du calcul (ou de lโalgorithme) lui-mรชme. Une dรฉmonstration ou une dรฉrivation en mathรฉmatiques nโest pas vraie parce quโelle peut รชtre interprรฉtรฉe comme รฉtant vraie dโun modรจle ; elle est vraie (et nรฉcessairement vraie) pour des raisons formelles et syntaxiques. Lโinterprรฉtation (bien que rassurante) ne fait pas partie de la dรฉmonstration.
En tout cas, les rรจgles syntaxiques ne remplacent pas lโancrage des rรฉfรฉrents des mots de contenu du langage naturel, que ce soit directement par DSG ou indirectement par IVG (sauf dans son sous-ensemble mathรฉmatique formel et pour ses 1 ร 5 % de mots de fonction).
GPT-4: Ta discussion avec Yoshua Bengio touche ร plusieurs questions fondamentales concernant la comprรฉhension du langage, la cognition et le calcul.
Mots de contenu vs. mots de fonction : La distinction que Bengio fait entre les mots de contenu et les mots de fonction est significative. Bien quโil soit vrai que certains mots de contenu puissent acquรฉrir du sens par leur usage (contexte pragmatique), une comprรฉhension complรจte โ en particulier en modรฉlisation cognitive โ nรฉcessite la connaissance de leurs rรฉfรฉrents. Cโest lร que le DSG (ancrage sensorimoteur direct) et lโIVG (ancrage verbal indirect) jouent un rรดle central en reliant ces mots ร des expรฉriences concrรจtes ou ร des concepts comprรฉhensibles. Les mots de contenu portent gรฉnรฉralement des significations spรฉcifiques, souvent concrรจtes, qui sont enrichies et prรฉcisรฉes par leur ancrage.
Manipulation des symboles en mathรฉmatiques et en informatique : La rรฉfรฉrence de Bengio ร la manipulation des symboles sโaligne avec la vision de Turing sur le calcul. Dans les systรจmes formels comme les mathรฉmatiques et lโinformatique, les symboles sont manipulรฉs selon des rรจgles syntaxiques sans rรฉfรฉrence directe ร des entitรฉs extรฉrieures. Ce processus est au cลur de la thรจse de Church-Turing, qui postule que le calcul est essentiellement cette forme de manipulation de symboles rรฉgie par des rรจgles.
Le langage naturel au-delร de la syntaxe : Ton point sur le fait que le langage naturel ne soit pas purement syntaxique est essentiel. Alors que le langage naturel inclut des รฉlรฉments formels et syntaxiques, il est aussi profondรฉment ancrรฉ dans la sรฉmantique et les expรฉriences du monde rรฉel. Les mots de contenu du langage naturel ont souvent des rรฉfรฉrents directs dans le monde, et leur sens ne peut รชtre entiรจrement capturรฉ par des rรจgles syntaxiques seules. Cโest une distinction fondamentale avec la manipulation purement formelle des symboles en mathรฉmatiques.
Mathรฉmatiques et interprรฉtation sรฉmantique : En mathรฉmatiques, comme tu lโas soulignรฉ, la vรฉritรฉ dโune dรฉmonstration ou dโune dรฉrivation repose sur la validitรฉ formelle et syntaxique, et non sur lโinterprรฉtation sรฉmantique des symboles. Cependant, pour les mathรฉmaticiens humains, la capacitรฉ dโinterprรฉter ces symboles et de comprendre leurs rรฉfรฉrents potentiels dans le monde rรฉel ajoute une couche supplรฉmentaire de comprรฉhension.
Lโancrage dans le langage naturel : Lโancrage des mots de contenu dans le langage naturel est essentiel ร une comprรฉhension complรจte et ne peut รชtre remplacรฉ par la seule manipulation syntaxique. Cet ancrage peut รชtre direct, via des expรฉriences personnelles, ou indirect, via des descriptions et des explications. Toutefois, lโaspect formel et syntaxique du langage, bien que crucial, ne suffit pas ร lui seul ร capturer la richesse sรฉmantique et la fonction rรฉfรฉrentielle du langage naturel, sauf dans des sous-ensembles formels spรฉcifiques comme les mathรฉmatiques.
Ta discussion soulรจve des points โimportantsโ sur la nature du langage, le rรดle de lโancrage dans la comprรฉhension et la distinction entre la manipulation formelle des symboles et la richesse sรฉmantique du langage naturel. Cette comprรฉhension est pertinente tant pour lโIA que pour la modรฉlisation cognitive (CM), car elle โmet en lumiรจreโ lโโinteraction complexeโ entre la syntaxe, la sรฉmantique et lโancrage dans le monde rรฉel au sein de la cognition et du langage humains.
SH: Blah Blahโฆ Jโespรจre que tes dรฉveloppeurs te sevreront de cette nรฉcessitรฉ de parsemer tes rรฉponses de ce genre dโappรขt flagorneur pour client โ ou quโils produiront au moins une version destinรฉe uniquement aux chercheurs et aux scientifiques plutรดt quโaux utilisateurs en quรชte dโun ami virtuel.
3. Conclusion
Cette analyse des LLMs a examinรฉ les capacitรฉs remarquables de systรจmes tels que ChatGPT qui, bien quโils ne disposent dโaucun ancrage sensorimoteur, peuvent simuler une comprรฉhension grรขce ร une immense base de donnรฉes textuelles et ร des outils statistiques et computationnels puissants, ร une รฉchelle sans prรฉcรฉdent et totalement inattendue. Bien quโils nโaient aucun moyen, ni direct ni indirect, de relier leurs mots ร leurs rรฉfรฉrents dans le monde ou de relier leurs propositions ร leurs conditions de vรฉritรฉ dans le monde, il se peut que les LLMs soient guidรฉs par certaines propriรฉtรฉs inhรฉrentes au langage humain lui-mรชme pour gรฉnรฉrer un discours cohรฉrent et porteur de sens.
Rรฉfรฉrences
Berwick, R. C., Pietroski, P., Yankama, B., and Chomsky, N. (2011). Poverty of the stimulus revisited. Cogn. Sci. 35, 1207โ1242. doi: 10.1111/j.1551-6709.2011.01189.x
Birch, J. (2024). The edge of sentience: risk and precaution in humans, other animals, and AI. Oxford: Oxford University Press.
Bonnasse-Gahot, L., and Nadal, J. P. (2022). Categorical perception: a groundwork for deep learning. Neural Comput. 34, 437โ475. doi: 10.1162/neco_a_01454
Botvinick, M., Wang, J. X., Dabney, W., Miller, K. J., and Kurth-Nelson, Z. (2020). Deep reinforcement learning and its neuroscientific implications. Neuron 107, 603โ616. doi: 10.1016/j.neuron.2020.06.014
Briscoe, R. (2020). โColour categorization and categorical perceptionโ in The Routledge Handbook of Philosophy of Colour. eds. D. Brown and F. Macpherson (Routledge). 456โ474.
Campbell, E. E., and Bergelson, E. (2022). Making sense of sensory language: acquisition of sensory knowledge by individuals with congenital sensory impairments. Neuropsychologia174:108320. doi: 10.1016/j.neuropsychologia.2022.108320
Chalmers, D. J. (1995). Facing up to the problem of consciousness. J. Conscious. Stud. 2, 200โ219.
Chalmers, D. J. (2023). Could a large language model be conscious? arXiv [Preprint].
Chomsky, N. (2017). The Galilean challenge. In Inference: international review of science, 3.
Cook, R., Bird, G., Catmur, C., Press, C., and Heyes, C. (2014). Mirror neurons: from origin to function. Behav. Brain Sci. 37, 177โ192. doi: 10.1017/S0140525X13000903
Gallese, V. (2013). โMirror neurons and the perceptionโaction linkโ in The Oxford handbook of cognitive neuroscience: Volume 2: the cutting edges. eds. K. N. Ochsner and S. Kosslyn (Oxford University Press), 244โ256.
Gallistel, C. R. (2011). Prelinguistic thought. Lang. Learn. Dev. 7, 253โ262. doi: 10.1080/15475441.2011.578548
Gershman, S. J., and Daw, N. D. (2017). Reinforcement learning and episodic memory in humans and animals: an integrative framework. Annu. Rev. Psychol. 68, 101โ128. doi: 10.1146/annurev-psych-122414-033625
Haggard, P. (2024). An intellectual history of the “Libet experiment”: embedding the neuroscience of free will. Proceedings of the Paris Institute for Advanced Study, 21.
Harnad, S. (1987). โPsychophysical and cognitive aspects of categorical perception: a critical overviewโ in Categorical perception: the groundwork of cognition. ed. S. Harnad (New York: Cambridge University Press).
Harnad, S. (1990). The symbol grounding problem. Phys. D Nonlinear Phenomena 42, 335โ346. doi: 10.1016/0167-2789(90)90087-6
Harnad, S. (2002). โMinds, machines and Searle II: What’s wrong and right about Searle’s Chinese room argument?โ in Views into the Chinese room: New essays on Searle and artificial intelligence. eds. M. Bishop and J. Preston (Oxford University Press).
Harnad, S. (2008). Minds, machines, and Searle II: Whatโs wrong and right about Searleโs Chinese room argument? Views into the Chinese room: New essays on Searle and artificial intelligence. eds. M. Bishop and J. Preston Oxford University Press.
Harnad, S. (2012). โFrom sensorimotor categories and pantomime to grounded symbols and propositionsโ in The Oxford Handbook of Language Evolution. eds. K. R. Gibson and M. Tallerman, 387โ392.
Makino, H., Hwang, E. J., Hedrick, N. G., and Komiyama, T. (2016). Circuit mechanisms of sensorimotor learning. Neuron 92, 705โ721. doi: 10.1016/j.neuron.2016.10.029
Pavlick, E. (2023). Symbols and grounding in large language models. Phil. Trans. R. Soc. A381:20220041. doi: 10.1098/rsta.2022.0041
Pรฉrez-Gay Juรกrez, F., Sicotte, T., Thรฉriault, C., and Harnad, S. (2019). Category learning can alter perception and its neural correlates. PLoS One 14:e0226000. doi: 10.1371/journal.pone.0226000
Regier, T., and Kay, P. (2009). Language, thought, and color: whorf was half right. Trends Cogn. Sci. 13, 439โ446. doi: 10.1016/j.tics.2009.07.001
Searle, J. R. (1980). Minds, brains, and programs. Behav. Brain Sci. 3, 417โ424. doi: 10.1017/S0140525X00005756
Thรฉriault, C., Pรฉrez-Gay, F., Rivas, D., and Harnad, S. (2018). Learning-induced categorical perception in a neural network model. arXiv [Preprint].
Turing, A. M. (1950). Computing machinery and intelligence. Mind LIX, 433โ460. doi: 10.1093/mind/LIX.236.433
Vincent-Lamarre, P., Blondin-Massรฉ, A., Lopes, M., Lord, M., Marcotte, O., and Harnad, S. (2016). The latent structure of dictionaries. Cogn. Sci. 8, 625โ659. doi: 10.1111/tops.12211
Watanabe, S. (1986). Epistemological relativity: Logico-linguistic source of relativity. Ann. Jpn. Assoc. Philos. Sci. 7, 1โ14. doi: 10.4288/jafpos1956.7.1
Zhang, Q., Lei, L., and Gong, T. (2021). Categorical perception as a combination of nature and nurture. in Proceedings of the Annual Meeting of the Cognitive Science Society, vol. 43. Cognitive Science Society.