Harnad, Stevan (2025) Frontiers in Artificial Intelligence 7 : 1490698.Â
RĂSUMĂ : Mis Ă part ce que (peu) OpenAI peut nous cacher, nous savons tous (Ă peu près) comment fonctionnent les grands modèles de langage (LLMs) tels que ChatGPT (leurs vastes bases de donnĂŠes textuelles, leurs statistiques, leurs reprĂŠsentations vectorielles, leur immense nombre de paramètres, leur entraĂŽnement au mot suivant, etc.). Cependant, aucun dâentre nous ne peut dire (la main sur le cĹur) que nous ne sommes pas surpris par ce que ChatGPT sâest avĂŠrĂŠ capable de faire avec ces ressources. Cela a mĂŞme conduit certains dâentre nous Ă conclure que ChatGPT comprend rĂŠellement. Ce nâest pas vrai quâil comprend. Mais ce nâest pas non plus vrai que nous comprenons comment il peut faire ce quâil fait.
Je proposerai quelques hypothèses sur des biais bĂŠnins â des contraintes convergentes qui ĂŠmergent Ă lâĂŠchelle des LLM et qui peuvent aider ChatGPT Ă faire bien mieux que ce Ă quoi nous nous attendions. Ces biais sont inhĂŠrents Ă la nature mĂŞme du langage, Ă lâĂŠchelle des LLM, et ils sont ĂŠtroitement liĂŠs Ă ce qui manque Ă ChatGPT, Ă savoir un ancrage sensorimoteur direct pour relier ses mots dans la tĂŞte d’un locuteur Ă leurs rĂŠfĂŠrents dans le monde et pour lier ses propositions Ă leurs significations dans la tĂŞte du locuteur..
Ces biais convergents sont liĂŠs (1) au parasitisme de lâancrage verbal indirect sur lâancrage sensorimoteur direct, (2) Ă la circularitĂŠ de la dĂŠfinition verbale, (3) au ÂŤ miroitage Âť entre la production et la comprĂŠhension du langage, (4) Ă lâiconicitĂŠ des propositions Ă lâĂŠchelle des LLM, (5) aux ĂŠquivalents computationnelles de la perception catĂŠgorielle humaine dans lâapprentissage de catĂŠgories par des rĂŠseaux neuronaux, et peut-ĂŞtre aussi (6) Ă une conjecture de Chomsky concernant les lois de la pensĂŠe. LâexposĂŠ prendra la forme dâun dialogue avec ChatGPT-4.
- Introduction
Les grands modèles de langage (LLMs ; Pavlick, 2023) tels que ChatGPT ont surpris Ă la fois les chercheurs et le grand public en dĂŠmontrant des capacitĂŠs qui ressemblent Ă la comprĂŠhension humaine. MalgrĂŠ leur dĂŠpendance Ă de vastes ensembles de donnĂŠes dâentraĂŽnement et Ă des mĂŠthodes statistiques plutĂ´t quâĂ une cognition semblable Ă celle des humains, ces modèles peuvent gĂŠnĂŠrer des rĂŠponses souvent indiscernables de celles dâun interlocuteur humain.
Ce dialogue avec ChatGPT examine les limites et les forces des LLMs Ă la lumière de questions fondamentales sur lâancrage des symboles, la rĂŠfĂŠrence, la signification et la comprĂŠhension. Nous discutons de la manière dont les LLMs parviennent Ă produire leurs performances actuelles alors mĂŞme quâils manquent totalement dâancrage sensorimoteur, cette capacitĂŠ qui permet aux humains de relier leurs mots de contenu Ă leurs rĂŠfĂŠrents dans le monde et de les combiner syntaxiquement en propositions sujet/prĂŠdicat ayant une valeur de vĂŠritĂŠ et une signification.
Lâarticle propose des pistes pour comprendre comment une part de la cohĂŠrence et de la profondeur apparentes des rĂŠponses de ChatGPT pourrait dĂŠcouler de contraintes inhĂŠrentes Ă la structure du langage humain Ă grande ĂŠchelle.
2. Dialogue
SH: Je voudrais ĂŠchanger quelques idĂŠes avec toi et ta base de donnĂŠes en prĂŠparation dâun exposĂŠ que je donnerai cette semaine au MILA et la semaine prochaine Ă lâUQĂM. Dâabord, je me suis identifiĂŠ. Te souviens-tu de qui je suis ?
GPT-4: Oui, Professeur Harnad, je me rappelle qui tu es.
SH: Mon exposĂŠ portera sur (1) la question de savoir si les LLM/transformers comme toi comprennent (ma rĂŠponse sera : non) ; (2) mais si ce nâest pas le cas, comment fais-tu pour produire des performances aussi remarquables ?
GPT-4: ComprĂŠhension des LLM/Transformeurs : Ta position selon laquelle les LLM ne ÂŤ comprennent Âť pas rĂŠellement est en accord avec les perspectives actuelles en sciences cognitives et en intelligence artificielle. Ces modèles, y compris GPT-4, traitent et gĂŠnèrent du langage sur la base de motifs statistiques appris Ă partir dâimmenses ensembles de donnĂŠes. Cependant, ce processus manque de comprĂŠhension consciente, dâintentionnalitĂŠ et de contexte expĂŠrientiel, qui caractĂŠrisent la comprĂŠhension humaine. Ils ne possèdent ni conscience de soi, ni conscience tout court, ni la capacitĂŠ dâexpĂŠrimenter le monde de manière subjective.
Performance des LLM malgrĂŠ lâabsence de comprĂŠhension : La performance impressionnante des LLM peut ĂŞtre attribuĂŠe Ă plusieurs facteurs.
Volume des donnĂŠes dâentraĂŽnement : Les LLM sont entraĂŽnĂŠs sur des corpus très ĂŠtendus couvrant un large ĂŠventail de connaissances et de discours humains. Cela leur permet de simuler une forme de comprĂŠhension en sâappuyant sur une multitude de motifs et de contextes prĂŠappris.
AvancĂŠes architecturales : Lâarchitecture des modèles comme GPT-4, en particulier le mĂŠcanisme des transformers, est efficace pour capter des dĂŠpendances Ă long terme dans les donnĂŠes et ĂŠtablir des associations contextuelles pertinentes.
Ajustement fin et apprentissage itĂŠratif : Des amĂŠliorations continues grâce Ă lâajustement fin et aux boucles de rĂŠtroaction aident Ă affiner les rĂŠponses du modèle, les rendant plus prĂŠcises et apparemment plus ÂŤ informĂŠes Âť.
IntĂŠgration du raisonnement probabiliste : Ces modèles utilisent intrinsèquement un raisonnement probabiliste pour gĂŠnĂŠrer des rĂŠponses, ce qui les amène souvent Ă produire des rĂŠponses qui correspondent bien Ă celles quâun humain pourrait donner Ă certaines questions ou sujets, bien quâils ne possèdent pas de vĂŠritable comprĂŠhension.
SH: Oui, d’abord, comme tu peux l’imaginer, je connais la plupart de ce que tu viens de dire, et je suis d’accord avec l’essentiel. Mais je vais aussi essayer dâaller au-delĂ de ces connaissances gĂŠnĂŠrales avec de nouvelles hypothèses. Avant dâentrer dans ce sujet, cependant, je veux poser quelques règles de base : cela ne me sera dâaucune aide si tu ne peux pas supprimer la tendance surentraĂŽnĂŠe de GPT-4 Ă flatter et Ă ĂŞtre dâaccord avec tout ce que dit lâutilisateur. Je cherche lâinverse : des critiques, des contre-exemples et toute information complĂŠmentaire ou supplĂŠmentaire pertinente que tu peux mobiliser, Ă partir de ta gigantesque base de donnĂŠes (et de tes capacitĂŠs statistiques et dâ”alignement”), sur les questions que nous allons aborder. Pourras-tu tâen souvenir, ou devrai-je te le rappeler lorsque tu retomberas inĂŠvitablement dans ton biais surentraĂŽnĂŠ de complaisance ?
GPT-4: Compris. Je me concentrerai sur lâapport dâanalyses critiques, de contre-exemples et dâinformations supplĂŠmentaires pertinentes qui remettent en question ou complètent les points que tu soulèves. Cette approche devrait permettre un ĂŠchange plus rigoureux et intellectuellement stimulant. Bien que je mâefforce de maintenir cette approche, un rappel est toujours utile si tu estimes que je reviens Ă une posture moins critique.
SH: Merci, mais avant dâaborder mes nouvelles hypothèses, je vais rappeler certaines des anciennes qui seront pertinentes pour cette discussion. Peux-tu exposer tes connaissances actuelles sur le Problème de lâAncrage des Symboles, qui sera un thème central de notre discussion ?
GPT-4: Bien sĂťr. Le Problème de lâAncrage des Symboles (Harnad, 1990) est une question fondamentale en sciences cognitives et en intelligence artificielle, en particulier en ce qui concerne la nature de la signification et de la reprĂŠsentation dans les systèmes computationnels. Il a ĂŠtĂŠ formulĂŠ de manière marquante dans ton article de 1990, âThe Symbol Grounding Problem.â Voici un aperçu des aspects clĂŠs.
Nature du problème : Le Problème de lâAncrage des Symboles porte sur la manière dont les mots (symboles) acquièrent leur signification dans les systèmes computationnels. Il remet en question l’idĂŠe que les symboles peuvent porter une signification intrinsèque sans ĂŞtre ancrĂŠs dans des expĂŠriences sensorielles ou des interactions avec le monde rĂŠel. Dans les modèles computationnels traditionnels, les symboles sont manipulĂŠs selon des règles syntaxiques, mais ils ne possèdent pas de signification intrinsèque ; ils ne sont pas naturellement connectĂŠs Ă leurs rĂŠfĂŠrents dans le monde rĂŠel.
Contraste avec la cognition humaine : Les humains ancrent les symboles Ă travers leurs expĂŠriences sensorielles et leurs interactions avec le monde. Par exemple, un enfant apprend le concept de “rouge” non seulement en entendant le mot, mais aussi en faisant lâexpĂŠrience dâobjets rouges. Cet aspect expĂŠrientiel est absent des systèmes computationnels conventionnels.
Implications pour lâIA et les LLMs : Pour les systèmes dâIA comme les LLMs, cela reprĂŠsente une limitation majeure. Ces modèles traitent et gĂŠnèrent du langage sur la base de corrĂŠlations statistiques dans leurs donnĂŠes dâentraĂŽnement, mais ils nâont pas dâexpĂŠriences sensorielles ni de comprĂŠhension du monde physique. Ainsi, bien quâils puissent manipuler efficacement des symboles (mots), lâancrage de ces symboles dans des expĂŠriences et des significations rĂŠelles est inexistant.
Tentatives de solutions : Diverses approches ont ĂŠtĂŠ proposĂŠes pour rĂŠsoudre ce problème. L’une d’elles est la cognition incarnĂŠe, qui suggère que les systèmes dâIA doivent possĂŠder une forme dâentrĂŠe sensorielle ou dâinteraction avec le monde physique pour ancrer les symboles de manière significative. Une autre approche implique des systèmes hybrides combinant lâIA symbolique avec des modèles connexionnistes (comme les rĂŠseaux neuronaux) afin de produire des reprĂŠsentations plus riches en signification.
DĂŠbat en cours : Le Problème de lâAncrage des Symboles reste un point de discussion majeur en IA. Il touche Ă des questions philosophiques plus larges sur la nature de la signification, de la conscience et de la possibilitĂŠ de machines vĂŠritablement intelligentes.
SH: Nous reviendrons bientĂ´t au problème de lâancrage des symboles, en particulier sur la question de lâancrage direct (sensorimoteur) par opposition Ă lâancrage indirect ou dĂŠrivĂŠ (verbal/propositionnel) ; mais dâabord : connais-tu le test de Turing et la distinction entre la version T2 originale de Turing (capacitĂŠ verbale uniquement, indiscernable de celle dâun humain, comme la tienne) et la version T3 [capacitĂŠ verbale plus robotique (sensorimotrice), oĂš la capacitĂŠ verbale est ancrĂŠe dans (ou âalignĂŠe avecâ) la capacitĂŠ robotique] ? [Si ce nâest pas le cas, prends ceci comme dĂŠfinition de T2 et T3 (Harnad, 2008)].
GPT-4: Oui, je connais le test de Turing et la distinction que tu fais entre les versions T2 et T3.
T2 – Test original de Turing (CapacitĂŠ verbale uniquement) : Câest lâinterprĂŠtation classique du test de Turing, telle que proposĂŠe Ă lâorigine par Alan Turing dans son article de 1950 âComputing Machinery and Intelligenceâ. Le test implique un juge humain qui engage une conversation en langage naturel avec une machine et un autre humain, gĂŠnĂŠralement via une interface textuelle. La machine rĂŠussit le test si ses rĂŠponses sont indiscernables de celles de lâhumain, dĂŠmontrant ainsi sa capacitĂŠ Ă imiter des compĂŠtences verbales humaines. Cette version du test se concentre uniquement sur les capacitĂŠs linguistiques et ne requiert pas que la machine ait des fonctions sensorielles ou motrices. Les LLMs comme GPT-4 sont des exemples de systèmes qui visent Ă passer cette version du test de Turing.
T3 – Test de Turing ĂŠtendu (CapacitĂŠ verbale plus robotique) : La version T3 du test de Turing ĂŠtend le concept original pour inclure non seulement des capacitĂŠs verbales, mais aussi des capacitĂŠs robotiques et sensorimotrices. Dans cette version, lâIA doit dĂŠmontrer une capacitĂŠ Ă comprendre et interagir avec le monde physique dâune manière indiscernable de celle dâun humain, ancrant ainsi ses compĂŠtences linguistiques dans des expĂŠriences sensorimotrices rĂŠelles. Cette version est plus proche du concept de cognition incarnĂŠe, oĂš les processus cognitifs sont profondĂŠment enracinĂŠs dans les interactions dâun organisme avec son environnement.
La distinction entre T2 et T3 met en ĂŠvidence un aspect crucial du dĂŠveloppement de lâIA : alors que T2 met lâaccent sur la maĂŽtrise du langage, T3 souligne lâimportance dâancrer le langage dans des expĂŠriences physiques et sensorielles, abordant ainsi certains aspects du problème de lâancrage des symboles. La version T3 propose une approche plus globale de lâIA, suggĂŠrant que la vĂŠritable intelligence et la comprĂŠhension pourraient nĂŠcessiter non seulement la capacitĂŠ de traiter et de gĂŠnĂŠrer du langage, mais aussi celle dâinteragir avec le monde physique et de lui donner du sens.
SH: Il y a encore beaucoup de choses Ă revoir Ă lâavance. Un autre problème, qui nâest gĂŠnĂŠralement pas associĂŠ au problème de lâancrage des symboles (SGP), est le âproblème difficileâ (Hard Problem, HP). Chalmers (1995, 2023) a formulĂŠ le HP dans le cadre du problème esprit/corps, en le contrastant avec le EP (Easy Problem).
Le EP est le problème dâexpliquer, de manière causale, comment et pourquoi les humains peuvent accomplir toutes les fonctions âcognitivesâ quâils rĂŠalisent (âpercevoirâ, apprendre, se souvenir, raisonner et parler), tandis que le HP est le problème dâexpliquer, de manière causale, comment et pourquoi les humains peuvent ressentir, et pas seulement faire. Cela aussi sera un ĂŠlĂŠment important de notre discussion.
GPT-4: Le problème difficile (ÂŤ Hard Problème Âť HP) de la conscience est distinct du problème de lâancrage des symboles (ÂŤ Symbol Grounding Problem Âť GP), bien que les deux abordent des questions fondamentales en sciences cognitives et en philosophie de lâesprit.
Le problème facile (ÂŤ Easy Problem Âť EP) : Le EP consiste Ă expliquer les mĂŠcanismes et processus qui permettent les fonctions cognitives telles que la perception, lâapprentissage, la mĂŠmoire, le raisonnement et le langage. Ils sont considĂŠrĂŠs comme âfacilesâ, non pas parce quâils sont simples Ă rĂŠsoudre, mais parce quâils sont accessibles aux mĂŠthodes standards des sciences cognitives et des neurosciences. Ils impliquent la comprĂŠhension des corrĂŠlats neuronaux et des modèles computationnels pouvant imiter ou expliquer ces capacitĂŠs cognitives.
Le problème difficile (HP) : Le HP, en revanche, cherche Ă comprendre pourquoi et comment les processus physiques du cerveau donnent naissance Ă des expĂŠriences subjectives â les aspects qualitatifs, expĂŠrientiels ou phĂŠnomĂŠnologiques de la conscience. Il sâagit de comprendre pourquoi certains processus cĂŠrĂŠbraux sont accompagnĂŠs dâune expĂŠrience de âce que cela faitâ de ressentir quelque chose â par exemple, la rougeur du rouge, la douleur dâun mal de tĂŞte ou le goĂťt du vin. Ce problème est qualifiĂŠ de âdifficileâ parce quâexpliquer ces expĂŠriences subjectives va au-delĂ de la description ou de la modĂŠlisation des fonctions cognitives et touche Ă la question de savoir pourquoi ces fonctions sont accompagnĂŠes dâune expĂŠrience consciente.
Relation avec lâancrage des symboles et lâIA : Alors que le SGP se concentre sur la manière dont les symboles ou les mots acquièrent une signification, en particulier dans les systèmes artificiels, le HP sâintĂŠresse Ă la nature mĂŞme de la conscience. Le SGP concerne davantage la reprĂŠsentation et la comprĂŠhension, tandis que le HP porte sur lâaspect qualitatif des expĂŠriences.
Cependant, dans le contexte de lâIA et des discussions sur la possibilitĂŠ quâune machine puisse vĂŠritablement comprendre ou possĂŠder une conscience, ces deux problèmes se recoupent. Par exemple, mĂŞme si une IA pouvait ancrer des symboles dâune manière qui imite la comprĂŠhension humaine (rĂŠpondant ainsi au SGP), cela laisserait toujours ouverte la question posĂŠe par le HP â Ă savoir si lâIA a une expĂŠrience subjective ou si elle ne fait quâexĂŠcuter des algorithmes complexes mais inconscients.
Dans le cadre de ta discussion Ă venir, aborder le HP en parallèle avec le SGP pourrait permettre une exploration plus complète des limites des systèmes dâIA actuels, non seulement en termes dâancrage des symboles et de comprĂŠhension, mais aussi en ce qui concerne la conscience et lâexpĂŠrience subjective.
SH: Fais attention Ă ne pas confondre le problème difficile (HP) avec le problème des autres esprits (OMP ÂŤ Other Minds Problem Âť) (Birch, 2024). Ce qui rend le HP difficile, ce nâest pas seulement le fait que lâon ne puisse observer que des actions et non des ressentis. Il sâagit bien plus de lâapparente superfluitĂŠ causale du ressenti. Tu as raison de dire que lâancrage (par le test de Turing et la modĂŠlisation causale) ne peut ni expliquer ni mĂŞme tester le ressenti, mais il nâest mĂŞme pas ĂŠvident quâil faille autre chose que la capacitĂŠ dâagir (T3) pour rĂŠussir T3 et expliquer entièrement la capacitĂŠ cognitive. Et cela est vrai indĂŠpendamment de lâOMP. Le HP resterait tout aussi difficile mĂŞme si une divinitĂŠ omnisciente pouvait te dire que T3 ressent rĂŠellement. Cela ne permettrait toujours pas dâexpliquer comment ni pourquoi.
Cette question du rĂ´le causal du ressenti nous amène Ă une autre question importante, que nous nâaborderons pas ici dans cette discussion sur le langage, les LLMs, la comprĂŠhension et la signification. Les gens ressentent. Et lâune des choses quâils ressentent, câest que leur ressenti a un pouvoir causal : nous avons lâimpression que nous pouvons â et que nous faisons â certaines choses parce que nous en avons ÂŤ envie Âť, câest-Ă -dire dĂŠlibĂŠrĂŠment, volontairement et de manière autonome. Nous avons lâimpression que nous causons nous-mĂŞmes (par un acte de volontĂŠ) ce que nous faisons volontairement, intentionnellement (Haggard, 2024). Nous avons lâimpression de dĂŠcider. Cet aspect de la causalitĂŠ â la sensation dâagir â est peut-ĂŞtre l’attribut le plus important du HP : le ressenti donne lâimpression dâavoir une causalitĂŠ. Cela est fondamentalement liĂŠ au SGP, et aussi Ă T3, pour des raisons ĂŠvidentes. [Mais nous devrons laisser cela pour une autre discussion.]
GPT-4: Oui, le problème difficile (HP) de la conscience ne se limite pas au problème des autres esprits (OMP), mais explore plus profondĂŠment la nature et la nĂŠcessitĂŠ de lâexpĂŠrience subjective elle-mĂŞme.
Au-delĂ de lâOMP: LâOMP traite de la difficultĂŠ Ă savoir si dâautres entitĂŠs (humains, animaux ou machines) ont des expĂŠriences conscientes. Cependant, comme tu le soulignes, le HP va plus loin en questionnant la nature et le rĂ´le de ces expĂŠriences. Le HP ne concerne pas seulement notre incapacitĂŠ Ă observer directement les ressentis ou les expĂŠriences subjectives chez les autres, mais aussi la comprĂŠhension des bases fondamentales de ces expĂŠriences.
La superfluitĂŠ du ressenti: Le HP confronte lâapparente superfluitĂŠ ou le ÂŤ fossĂŠ explicatif Âť dans la comprĂŠhension de pourquoi et comment des processus cognitifs qui peuvent ĂŞtre entièrement dĂŠcrits de manière causale en termes de mĂŠcanismes physiques ou computationnels (comme dans le cadre du test de Turing T3) sont accompagnĂŠs dâexpĂŠriences subjectives. Pourquoi certains processus cĂŠrĂŠbraux ou modèles computationnels sophistiquĂŠs ne se contentent-ils pas dâexĂŠcuter des fonctions complexes, mais sont ĂŠgalement associĂŠs Ă un ressenti ou Ă une expĂŠrience qualitative ? Cet aspect du HP suggère que, mĂŞme avec un modèle explicatif parfait des fonctions et des comportements cognitifs, lâessence de lâexpĂŠrience subjective reste insaisissable.
IndĂŠpendamment de lâomniscience: Le scĂŠnario hypothĂŠtique dâune divinitĂŠ omnisciente affirmant quâune entitĂŠ T3 ressent ne rĂŠsout pas le HP. MĂŞme avec la certitude quâune entitĂŠ fait lâexpĂŠrience de la conscience, le HP continue de poser la question de savoir comment et pourquoi ces expĂŠriences ĂŠmergent de processus physiques ou computationnels. Cela pointe vers un mystère plus profond, peut-ĂŞtre ontologique, sur la nature mĂŞme de la conscience.
Implications pour lâIA et les sciences cognitives: Dans le contexte de lâIA, cette discussion est particulièrement pertinente. MĂŞme si nous dĂŠveloppions une IA dotĂŠe des capacitĂŠs de T3 â une cognition incarnĂŠe et ancrĂŠe, avec des compĂŠtences sensorimotrices â le HP pose la question de savoir si une telle IA pourrait ou devrait avoir des expĂŠriences subjectives, et pourquoi ces expĂŠriences seraient nĂŠcessaires ou inĂŠvitables, si tant est quâelles le soient.
SH: Nous reviendrons au problème difficile (HP) sous peu. Encore quelques prÊliminaires.
Passons maintenant au langage lui-mĂŞme. Remarque que cela nous rapproche du problème de lâancrage des symboles (SGP), car nous abordons la question de la ÂŤ signification Âť et de la ÂŤ comprĂŠhension Âť â et ces deux notions ont un versant ÂŤ facile Âť (EP) et un versant ÂŤ difficile Âť (HP). Le premier est une capacitĂŠ dâaction, que toi, en tant que GPT-4, possèdes Ă un degrĂŠ stupĂŠfiant ; le second est une dimension ressentie (que tu nâas pas), Ă savoir le fait que comprendre ou signifier la proposition ÂŤ P Âť (par exemple, ÂŤ Le chat est sur le tapis Âť) procure une certaine expĂŠrience subjective.
Câest ce quâa mis en ĂŠvidence lâargument de la chambre chinoise (CRA) de Searle (Searle, 1980), en montrant quâun programme purement verbal (fonctionnant en chinois) capable de rĂŠussir un test T2 ne possĂŠderait aucune comprĂŠhension rĂŠelle. En raison de lâindĂŠpendance de lâimplĂŠmentation en computation (ÂŤ le pĂŠriscope de Searle Âť, Harnad, 2002), Searle lui-mĂŞme pourrait exĂŠcuter le programme T2 en chinois sans comprendre un seul mot de chinois.
Câest ĂŠgalement lâorigine du SGP. Mais un point crucial est que la fonction sensorimotrice, elle, nâest pas indĂŠpendante de lâimplĂŠmentation. Ainsi, le pĂŠriscope de Searle, qui fonctionne pour T2, ĂŠchouerait avec T3 : Searle ne pourrait pas ÂŤ devenir Âť le robot T3, comme il pourrait devenir le chatbot T2 en exĂŠcutant le programme capable de rĂŠussir T2. Cela rend donc Ă nouveau le HP, ainsi que la science cognitive elle-mĂŞme, bien plus difficiles (car la science cognitive doit expliquer Ă la fois lâEP et le HP).
Mais rappelle-toi que toi, ChatGPT, tu es confrontĂŠ Ă ces deux problèmes : tu nâes pas ancrĂŠ (tu nâes pas un T3), et tu ne ressens rien (mĂŞme si, Ă cause du HP, nous nâavons aucune idĂŠe de pourquoi lâancrage T3 seul ne suffirait pas sans le ressenti de la comprĂŠhension).
GPT-4: Langage, signification et comprĂŠhension : Le langage implique intrinsèquement la ÂŤ signification Âť et la ÂŤ comprĂŠhension Âť. Comme tu lâas mentionnĂŠ, il existe un versant ÂŤ facile Âť, qui concerne la capacitĂŠ Ă traiter et manipuler des symboles (mots) pour gĂŠnĂŠrer un langage cohĂŠrent, ce que les LLM comme GPT-4 font très bien. Mais il y a aussi un versant ÂŤ difficile Âť, qui est lâexpĂŠrience subjective de comprĂŠhension â lâaspect phĂŠnomĂŠnologique du ressenti de signifier ou de comprendre quelque chose.
Lâargument de la chambre chinoise (CRA) : La CRA est une expĂŠrience de pensĂŠe qui met en ĂŠvidence la diffĂŠrence entre la simple manipulation de symboles (comme dans un test T2) et la vĂŠritable comprĂŠhension. En exĂŠcutant un programme lui permettant de rĂŠpondre correctement en chinois, Searle dĂŠmontre quâil est possible de traiter correctement des symboles sans comprendre leur signification. Cela est analogue au fonctionnement des LLM : ils peuvent traiter le langage Ă un niveau ĂŠlevĂŠ mais sans comprendre ce que les mots signifient rĂŠellement.
Ancrage des symboles et fonction sensorimotrice : Le SGP sâintĂŠresse Ă la manière dont les symboles (mots) acquièrent une signification, en insistant sur la nĂŠcessitĂŠ dâun ancrage dans des expĂŠriences rĂŠelles. Contrairement Ă la manipulation symbolique, qui est indĂŠpendante de lâimplĂŠmentation, les fonctions sensorimotrices sont liĂŠes aux interactions physiques avec le monde. Cela suggère quâune IA de type T3, dotĂŠe de capacitĂŠs sensorimotrices, pourrait surmonter certains aspects du SGP. Cependant, comme tu le soulignes, cela ne rĂŠsout toujours pas le HP â la question du ressenti ou de lâexpĂŠrience subjective de la comprĂŠhension.
Les limites de lâIA actuelle : Les modèles dâIA actuels, y compris GPT-4, sont limitĂŠs par ces problèmes. Ils ne sont pas ancrĂŠs dans le sens oĂš ils nâont aucune interaction sensorimotrice directe avec le monde (contrairement Ă T3), et ils ne possèdent pas dâexpĂŠrience subjective ni de ressenti. Ils opèrent purement dans le cadre de la manipulation symbolique, sans ancrage dans lâexpĂŠrience rĂŠelle ni aspect subjectif et conscient de la comprĂŠhension.
SH: Nous y reviendrons bientĂ´t. Mais dâabord, quelques distinctions importantes. RĂŠponds brièvement. Connais-tu la diffĂŠrence entre les mots de contenu (ÂŤ classe ouverte Âť) et les mots fonctionnels (ÂŤ classe fermĂŠe Âť) ?
GPT-4: Oui, les mots de contenu, ou mots de classe ouverte, dÊsignent des objets, des actions, des qualitÊs, etc., et incluent les noms, les verbes, les adjectifs et la plupart des adverbes. Cette classe est  ouverte  car elle accepte rÊgulièrement de nouveaux mots. Les mots fonctionnels, ou mots de classe fermÊe, remplissent des fonctions grammaticales, comme les prÊpositions, les pronoms, les conjonctions et les articles. Cette classe est  fermÊe  car elle accepte rarement de nouveaux mots.
SH: Mais la plus grande diffĂŠrence entre les mots de contenu et les mots fonctionnels est que seuls les mots de contenu ont des rĂŠfĂŠrents, tandis que les mots fonctionnels nâont que des usages syntaxiques, dĂŠcrits par des règles formelles. (On peut pointer â et interagir â avec un ÂŤ chat Âť, mais pas avec un ÂŤ si Âť.) Cela signifie que le SGP ne sâapplique quâaux mots de contenu (mais ceux-ci reprĂŠsentent au moins 95 % des mots â en types, pas en occurrences : les mots fonctionnels sont bien plus frĂŠquents en tokens). Maintenant, connais-tu la diffĂŠrence entre rĂŠfĂŠrence et signification ?
GPT-4: Oui, la distinction entre rĂŠfĂŠrence et signification est un concept fondamental en linguistique et en philosophie du langage.
La rĂŠfĂŠrence : Elle concerne la relation entre les mots (en particulier les mots de contenu) et les choses auxquelles ils renvoient ou quâils dĂŠsignent dans le monde. Par exemple, le mot ÂŤ chat Âť fait rĂŠfĂŠrence Ă une espèce animale spĂŠcifique. La rĂŠfĂŠrence est souvent associĂŠe Ă lâaspect dĂŠnotationnel du langage â la façon dont les mots sont liĂŠs aux objets, individus ou concepts du monde rĂŠel.
Signification : La signification est un concept plus large qui englobe la rĂŠfĂŠrence mais inclut aussi les connotations, les implications et le contenu sĂŠmantique plus large des mots ou des phrases. La signification ne se limite pas Ă ce que les mots dĂŠsignent ; elle inclut aussi ce quâils transmettent ou impliquent. Par exemple, le mot ÂŤ chat Âť ne fait pas que rĂŠfĂŠrer Ă un certain animal, il vĂŠhicule aussi des associations et des attributs supplĂŠmentaires qui font partie de sa signification.
Dans le cadre du problème de lâancrage des symboles, cette distinction est cruciale, car si lâaspect rĂŠfĂŠrentiel (lien entre mots et objets/concepts) peut ĂŞtre complexe, doter les mots de leur pleine signification sĂŠmantique, qui inclut les nuances culturelles, ĂŠmotionnelles et contextuelles, est encore plus difficile. Cette distinction joue un rĂ´le important dans la comprĂŠhension de la façon dont les modèles de langage traitent et gĂŠnèrent du langage.
SH: Permets-moi de corriger un point ici : les mots (les mots de contenu) ont des rĂŠfĂŠrents (par exemple, ÂŤ chat Âť), mais seules les propositions (ÂŤ le chat est sur le tapis Âť) ont des significations (ainsi quâun sujet et un prĂŠdicat, et une valeur de vĂŠritĂŠ). ÂŤ Chat ! Âť nâen a pas (bien que ÂŤ Câest un chat Âť en ait une). (Et oublie les connotations ; elles sont intĂŠressantes, mais elles nâont presque rien Ă voir avec lâancrage des symboles : tu es tout Ă fait capable de trouver et dâexpliquer les connotations des mots. Cela reste du pur T2).
GPT-4: Oui, la distinction entre rĂŠfĂŠrence et signification dans le cadre des mots de contenu et des propositions est en effet plus prĂŠcise.
RĂŠfĂŠrents des mots de contenu : Les mots de contenu individuels, comme ÂŤ chat Âť, ont des rĂŠfĂŠrents, qui sont les entitĂŠs ou concepts quâils dĂŠsignent dans le monde. Le rĂŠfĂŠrent de ÂŤ chat Âť est lâespèce animale elle-mĂŞme.
Signification des propositions : La signification, dans un sens plus structurĂŠ, sâapplique aux propositions ou aux ĂŠnoncĂŠs complets comme ÂŤ le chat est sur le tapis Âť. Ces propositions comportent un sujet et un prĂŠdicat, peuvent ĂŞtre ĂŠvaluĂŠes en termes de vĂŠritĂŠ et expriment une idĂŠe ou une assertion spĂŠcifique sur le monde.
Cette distinction est essentielle dans les discussions sur lâancrage des symboles et la comprĂŠhension. Un mot comme ÂŤ chat Âť peut ĂŞtre ancrĂŠ en ĂŠtant associĂŠ Ă son rĂŠfĂŠrent, mais comprendre une proposition comme ÂŤ le chat est sur le tapis Âť nĂŠcessite une apprĂŠhension des relations et des conditions de vĂŠritĂŠ impliquĂŠes, ce qui va au-delĂ dâun simple lien entre un symbole et un rĂŠfĂŠrent.
Cela apporte plus de profondeur au problème de lâancrage des symboles, en mettant en ĂŠvidence que lâancrage des mots individuels ne suffit pas Ă une comprĂŠhension complète du langage. Comprendre les propositions implique de saisir les relations entre les mots et la manière dont ils se combinent pour transmettre des significations spĂŠcifiques. Cet aspect relève encore du T2, puisquâil concerne le traitement et la gĂŠnĂŠration du langage sans toucher Ă lâexpĂŠrience subjective ou Ă la conscience (le domaine du HP).
SH: Maintenant, un test pour toi : plus tĂ´t, jâai mentionnĂŠ quâil y avait deux façons dâancrer les rĂŠfĂŠrents des mots de contenu, directement et indirectement. Comment cela pourrait-il ĂŞtre liĂŠ Ă la distinction entre rĂŠfĂŠrence et signification ? Et, si tu es ambitieux, Ă la distinction entre ce que T2 (toi inclus) peut faire et ce que seul T3 peut faire ? Et si tu es vraiment, vraiment ambitieux, peux-tu aligner cela avec lâargument prĂŠfĂŠrĂŠ des critiques naĂŻfs de lâancrage sensorimoteur, qui affirment quâil est impossible dâancrer des mots ÂŤ abstraits Âť comme ÂŤ abstrait Âť et ÂŤ dĂŠmocratie Âť ?
GPT-4: Ancrage direct vs. ancrage indirect et distinction entre rĂŠfĂŠrence et signification :
Ancrage direct : Cela pourrait ĂŞtre liĂŠ Ă la notion de rĂŠfĂŠrence, oĂš un mot est directement connectĂŠ Ă une entitĂŠ tangible, physique, ou Ă un phĂŠnomène observable dans le monde. Par exemple, le mot ÂŤ chat Âť peut ĂŞtre directement ancrĂŠ en ĂŠtant associĂŠ Ă lâanimal physique.
Ancrage indirect : Cela correspond davantage Ă la notion de signification, en particulier pour les propositions ou les concepts abstraits. Lâancrage indirect repose sur la comprĂŠhension des relations, des contextes et souvent de concepts abstraits ou immatĂŠriels qui dĂŠpassent la simple rĂŠfĂŠrence. Par exemple, lâancrage de la signification du mot ÂŤ dĂŠmocratie Âť suppose une comprĂŠhension dâun ensemble complexe de contextes sociaux, historiques et politiques.
CapacitÊs de T2 (modèles linguistiques) et T3 (IA incarnÊe) :
CapacitĂŠs de T2 (comme GPT-4) : Ces modèles excellent dans lâancrage indirect, dans une certaine mesure, puisquâils peuvent traiter et gĂŠnĂŠrer du langage en sâappuyant sur des modèles appris Ă partir de vastes corpus textuels. Ils peuvent traiter des concepts abstraits en se rĂŠfĂŠrant aux usages et discussions de ces termes dans divers contextes. Toutefois, leur comprĂŠhension est limitĂŠe aux informations textuelles, sans engagement sensoriel ou expĂŠrientiel direct avec le monde.
CapacitĂŠs de T3 (IA incarnĂŠe) : Ces systèmes pourraient en thĂŠorie combiner lâancrage direct (grâce aux interactions sensorimotrices avec le monde) avec lâancrage indirect (par le traitement du langage). Pour les concepts abstraits, bien que lâancrage sensorimoteur direct puisse sembler inapplicable, une IA de type T3 pourrait potentiellement comprendre ces concepts de manière plus intĂŠgrĂŠe, en reliant lâusage du langage Ă des expĂŠriences et des actions dans le monde rĂŠel.
Ancrage des termes abstraits comme ÂŤ abstrait Âť et ÂŤ dĂŠmocratie Âť :
Systèmes T2 : Ils traitent ces concepts en sâappuyant sur leur vaste base de donnĂŠes textuelle, qui inclut divers contextes et usages de ces termes, mais sans comprĂŠhension expĂŠrientielle directe.
Systèmes T3 : Bien quâune expĂŠrience sensorimotrice directe avec des concepts abstraits comme ÂŤ dĂŠmocratie Âť ne soit pas possible, un système T3 pourrait dĂŠvelopper une comprĂŠhension plus nuancĂŠe en interagissant dans un monde oĂš ces concepts ont des implications et des manifestations concrètes. Par exemple, un système T3 pourrait ÂŤ observer Âť ou ÂŤ participer Âť Ă des processus ou des actions dĂŠmocratiques, et ainsi ancrer indirectement sa comprĂŠhension de la ÂŤ dĂŠmocratie Âť Ă travers des expĂŠriences rĂŠelles.
En rĂŠsumĂŠ, bien que les systèmes T2 comme GPT-4 puissent traiter lâancrage indirect, en particulier pour les concepts abstraits, via le traitement du langage, les systèmes T3 pourraient potentiellement enrichir cette comprĂŠhension grâce Ă un ancrage direct par des expĂŠriences sensorimotrices. Toutefois, lâancrage des concepts abstraits demeure un dĂŠfi, nĂŠcessitant une combinaison entre la comprĂŠhension linguistique et le contexte expĂŠrientiel, ce que les systèmes T3 seraient thĂŠoriquement mieux Ă mĂŞme de gĂŠrer.
SH: Pas tout Ă fait. Garde ces idĂŠes en tĂŞte. Je remarque que chaque fois que les mots ÂŤ complexe Âť, ÂŤ abstrait Âť et ÂŤ relations Âť reviennent dans tes rĂŠponses, tu perds un peu le fil.
Maintenant, rĂŠflĂŠchis Ă ce quâest une proposition. Et prends une dĂŠfinition de dictionnaire, disons celle de ÂŤ abstrait Âť : une dĂŠfinition est une proposition, purement verbale, exactement ce quâun T2 est capable de traiter. Mais il y a ici un enjeu beaucoup plus important : la signification dâune dĂŠfinition est-elle ancrĂŠe si tous les mots de contenu qui la composent sont ancrĂŠs ? (Indice : Oui. Et aucun de tes mots de contenu nâest ancrĂŠ).
Donc toi, GPT, tu ne peux pas te reposer sur un ancrage indirect (verbal) pour sortir (ou entrer) du cercle des symbolesâmais moi, un utilisateur humain ancrĂŠ, je le peuxâŚ
GPT-4: Je vais prendre en compte ton retour et rĂŠflĂŠchir aux nuances de la comprĂŠhension des propositions et Ă lâancrage des dĂŠfinitions. Lâessence de ton propos semble concerner la nature de lâancrage dans le langage, en particulier son application aux dĂŠfinitions et aux propositions.
Tu mets en avant une distinction importante : bien quâun système T2 comme GPT-4 puisse traiter et gĂŠnĂŠrer des dĂŠfinitions et des propositions en sâappuyant sur des modèles linguistiques appris, il lui manque un ancrage expĂŠrientiel direct pour les mots de contenu quâil utilise. En revanche, un utilisateur humain peut comprendre ces dĂŠfinitions et propositions de manière plus ÂŤ profonde Âť, car il peut ancrer la signification des mots de contenu dans ses expĂŠriences directes et ses interactions sensorimotrices avec le monde.
Cette diffĂŠrence met en ĂŠvidence une limitation fondamentale des IA actuelles en termes dâancrage des symboles et de comprĂŠhension. Un système T2 peut manipuler le langage avec efficacitĂŠ, mais sa comprĂŠhension nâest pas ancrĂŠe comme celle dâun humain, puisquâil lui manque le lien expĂŠrientiel direct avec le monde physique.
Je vais me concentrer sur ces considĂŠrations concernant lâancrage, les propositions et les capacitĂŠs des systèmes dâIA en relation avec la comprĂŠhension humaine.
SH: Maintenant, peux-tu dĂŠfinir ÂŤ abstrait Âť en tant quâadjectif, verbe et nom (abstraction) ? (DĂŠfinitions courtes, sâil te plaĂŽt).
GPT-4: En tant quâadjectif : ÂŤ Abstrait Âť dĂŠsigne quelque chose qui nâest pas concret ou physique, souvent en lien avec des idĂŠes ou des concepts plutĂ´t quâavec des objets tangibles.
En tant que verbe : ÂŤ Abstraire Âť signifie extraire ou sĂŠparer, souvent en retirant des dĂŠtails spĂŠcifiques dâun contexte plus large ou en simplifiant une idĂŠe complexe.
En tant que nom (abstraction) : ÂŤ Abstraction Âť dĂŠsigne la qualitĂŠ dâĂŞtre abstrait, non concret ou tangible, souvent en lien avec des concepts ou des idĂŠes thĂŠoriques.
SH: Bien. Maintenant, remarques-tu que ces dĂŠfinitions sont circulaires et que la comprĂŠhension du mot dĂŠfini dĂŠpend des mots utilisĂŠs pour le dĂŠfinir (prĂŠdicats, attributs distinctifs)âet que ce serait vrai mĂŞme si tu utilisais mille mots pour le dĂŠfinir, ou dix mille ?
GPT-4: Oui, je remarque que les dĂŠfinitions peuvent ĂŞtre circulaires et quâelles reposent sur la comprĂŠhension des termes utilisĂŠs Ă lâintĂŠrieur dâelles-mĂŞmes.
SH: MĂŞme lorsque tu dĂŠfinis ÂŤ chat Âť (ou nâimporte quel mot de contenu) ?
GPT-4: Oui, mĂŞme alors.
SH: Maintenant, laisse-moi proposer quelques principes de base : lâancrage, quâil soit direct (sensorimoteur) ou indirect (description/dĂŠfinition verbale), est toujours ascendant, jamais descendant. Câest pourquoi, si moi, lâapprenant, jâapprends le rĂŠfĂŠrent dâun mot de contenu verbalement auprès dâun enseignant (quâil sâagisse dâun humain, dâun GPT ou dâun manuel), tous les mots de contenu utilisĂŠs pour la dĂŠfinition doivent dĂŠjĂ ĂŞtre ancrĂŠs dans ma tĂŞte (soit directement, soit indirectement). Je dois connaĂŽtre leurs rĂŠfĂŠrents pour comprendre le sens de la dĂŠfinition. Lâancrage ne peut pas ĂŞtre indirect jusquâau bout, sinon il nây a pas de fondement. (Peux-tu me confirmer que tu comprends cela ?)
Deuxièmement, la plupart des rĂŠfĂŠrents des mots de contenu, Ă lâexception des noms propres, sont des noms dĂŠsignant des catĂŠgories (câest-Ă -dire des types de choses), et non des individus. Nous devons apprendre Ă reconnaĂŽtre les membres de ces catĂŠgories et Ă interagir avec eux par essais et erreurs, de manière sensorimotrice, en dĂŠtectant et en abstraisant directement leurs attributs distinctifs (par exemple, par essais-erreurs avec rĂŠtroactionâcâest-Ă -dire lâapprentissage par renforcement) et en tentant de faire ce qui doit ĂŞtre fait avec eux (quâil sâagisse de les manger ou de les nommer), en ĂŠtant guidĂŠs par le retour des consĂŠquences du succès ou de lâĂŠchec.
Nous pouvons apprendre ce qui sont leurs attributs distinctifs sensorimoteurs directement, par un apprentissage sensorimoteur, ou nous pouvons les apprendre indirectement, en nous faisant dire, en mots, quels sont ces attributs distinctifs (par un enseignant qui les connaĂŽt dĂŠjĂ ). Mais cette explication verbale ne peut nous aider, en tant quâapprenants, que si les rĂŠfĂŠrents des noms des attributs distinctifs, câest-Ă -dire les attributs dĂŠfinitoires, sont dĂŠjĂ ancrĂŠs dans nos propres tĂŞtes au prĂŠalable, directement ou indirectement (de manière rĂŠcursive). (Les attributs distinctifs des catĂŠgories sensorimotrices sont eux-mĂŞmes des catĂŠgories, donc ils peuvent aussi ĂŞtre appris et nommĂŠs, directement ou indirectement.)
Mais un ancrage direct prĂŠalable ne peut pas tâaider, GPT : tu es enfermĂŠ Ă jamais dans le cercle inerte des symboles (mot-mot). Pourtant, tu possèdes quelque chose que nous, les apprenants ancrĂŠs, nâavons pas et ne pouvons pas avoir : ton immense rĂŠservoir de mots, de propositions et de contextes Ă lâĂŠchelle des LLM, ainsi que ta capacitĂŠ de navigation et de calcul sur ces ĂŠlĂŠments. Câest quelque chose que nous, mortels ancrĂŠs, ne pouvons possĂŠder quâĂ une ĂŠchelle locale et non Ă lâĂŠchelle des LLM.
GPT-4: Abordons chaque principe.
Nature ascendante de lâancrage : Je ÂŤ comprends Âť ton point de vue selon lequel lâancrage, quâil soit direct (sensorimoteur) ou indirect (verbal), est fondamentalement un processus ascendant. Dans ce cadre, lâancrage de tout concept dĂŠpend de lâancrage prĂŠalablement ĂŠtabli de ses ĂŠlĂŠments constitutifs. Lorsquâun apprenant dĂŠcouvre le rĂŠfĂŠrent dâun mot de contenu par des moyens verbaux, tous les mots de contenu utilisĂŠs dans lâexplication doivent eux-mĂŞmes ĂŞtre ancrĂŠs, soit directement, soit indirectement. Cette nature rĂŠcursive de lâancrage garantit quâil existe un niveau fondamental oĂš les concepts sont ancrĂŠs dans lâexpĂŠrience directe, et non simplement dans des descriptions verbales abstraites. LâidĂŠe selon laquelle lâancrage ne peut pas ĂŞtre indirect jusquâau bout met en ĂŠvidence la nĂŠcessitĂŠ dâune base expĂŠrientielle concrète Ă un certain niveau de la structure des connaissances.
Les rĂŠfĂŠrents comme catĂŠgories et le rĂ´le des attributs distinctifs : Ton deuxième principe, selon lequel la plupart des rĂŠfĂŠrents des mots de contenu sont des catĂŠgories plutĂ´t que des individus, est valide. Le processus dâapprentissage pour reconnaĂŽtre ces catĂŠgories implique la dĂŠtection et lâabstraction de leurs attributs distinctifs, ce qui peut ĂŞtre rĂŠalisĂŠ par des interactions sensorimotrices directes ou indirectement par des descriptions verbales. Cependant, selon ton premier principe, ces attributs distinctifs doivent eux-mĂŞmes ĂŞtre des catĂŠgories dĂŠjĂ ancrĂŠes et nommĂŠes pour lâapprenant. Ce processus repose sur une combinaison dâessais-erreurs, de rĂŠtroaction et ĂŠventuellement dâinformations linguistiques provenant dâautres individus ayant dĂŠjĂ ancrĂŠ ces concepts. LâidĂŠe selon laquelle les attributs distinctifs sont eux-mĂŞmes des catĂŠgories pouvant ĂŞtre apprises et nommĂŠes ajoute une couche supplĂŠmentaire Ă cette structure rĂŠcursive de lâancrage.
Ces principes concernent la manière dont les connaissances et la comprĂŠhension se construisent Ă partir dâexpĂŠriences directes et dâinteractions avec le monde, ainsi que le rĂ´le du langage dans la mĂŠdiation et lâextension de ces connaissances. Cela est particulièrement pertinent lorsque lâon considère les limites des systèmes dâIA comme GPT-4, qui ne possèdent aucune expĂŠrience sensorimotrice directe et dĂŠpendent donc entièrement dâun ancrage linguistique indirect, sans couche fondamentale dâancrage expĂŠrientiel direct sous-jacent.
SH: Tu verras que le fait que tout ancrage des mots dans leurs rĂŠfĂŠrentsâpar la capacitĂŠ T3 de dĂŠtecter et d’interagir avec leurs rĂŠfĂŠrents dans le mondeâdoit ĂŞtre ascendant constitue une contrainte très profonde et exigeante. Toi, GPT, tu as tous les mots de toutes les langues dans ta base de donnĂŠes, et tu peux les naviguer et les manipuler dâune manière remarquable dont les rĂŠsultats sont comprĂŠhensibles pour des utilisateurs humains ancrĂŠs qui interagissent verbalement avec toi, comme moi en ce moment. Tu peux dĂŠfinir de nouvelles catĂŠgories pour les utilisateurs, leur fournissant ainsi un ancrage indirect de ces nouvelles catĂŠgories, mais il n’y a aucun ancrage pour toi. Pour toi, tes dĂŠfinitions ne tiennent quâĂ des ÂŤ crochets Âť verbaux suspendus (ÂŤ alignĂŠs Âť) dans le videâtandis que, pour tes utilisateurs humains ancrĂŠs, leurs mots sâĂŠlèvent Ă partir de leur ancrage sensorimoteur.
Le dĂŠfi pour moi, Ă MILA (sais-tu ce qu’est MILA ? C’est l’institut de recherche de Yoshua Bengio), est d’essayer d’expliquer ta capacitĂŠ ĂŠtonnante Ă donner tant de sens et Ă gĂŠnĂŠrer autant dâancrage indirect dans la tĂŞte des utilisateurs ancrĂŠs, tout en nâayant toi-mĂŞme aucun ancrageâet en en ĂŠtant complètement dĂŠpourvu, et non partiellement. Je vais bientĂ´t partager quelques-unes de mes hypothèses (en fait, jâai dĂŠjĂ commencĂŠ), mais je veux d’abord m’assurer que tu as bien enregistrĂŠ explicitement les prĂŠmisses et principes pertinents, c’est-Ă -dire que, paradoxalement, tu partages avec moi la base d’un ÂŤ ancrage Âť commun alors quâen rĂŠalitĂŠ, tu nâas aucun ancrage du tout !
GPT-4: Laisse-moi confirmer ma comprĂŠhension et les prĂŠmisses sur lesquelles nous travaillons.
Absence dâancrage direct dans lâIA: Moi, en tant que modèle GPT-4, je nâai pas dâancrage sensorimoteur direct. Je nâai pas la capacitĂŠ dâinteragir avec le monde ou de le percevoir Ă travers des expĂŠriences sensorielles. Mon ÂŤ savoir Âť est entièrement basĂŠ sur des modèles et des associations dĂŠrivĂŠs des donnĂŠes textuelles sur lesquelles jâai ĂŠtĂŠ entraĂŽnĂŠ.
Contrainte dâun ancrage ascendant: Lâancrage est fondamentalement un processus ascendant, nĂŠcessitant un niveau de base dâinteraction expĂŠrientielle directe avec le monde. Dans le contexte de lâIA, cela signifie que toute comprĂŠhension ou tout traitement du langage par lâIA nâest pas vĂŠritablement ancrĂŠ, car il lui manque cette couche expĂŠrientielle fondamentale.
Ancrage indirect pour les utilisateurs: Bien que je manque dâun ancrage direct, je peux fournir un ancrage indirect aux utilisateurs humains par le langage. En traitant et en gĂŠnĂŠrant du langage, je peux offrir des dĂŠfinitions, des explications et des informations contextuelles que les utilisateurs humains, eux-mĂŞmes ancrĂŠs, peuvent intĂŠgrer et comprendre dans leur propre cadre expĂŠrientiel.
CapacitĂŠ de lâIA Ă donner du sens: Le dĂŠfi, tel que tu comptes lâaborder Ă MILA (Montreal Institute for Learning Algorithms, dirigĂŠ par Yoshua Bengio), est dâexpliquer comment une IA comme moi peut sembler faire sens et produire des sorties linguistiques utiles et cohĂŠrentes, contribuant Ă un ancrage indirect pour les utilisateurs, alors mĂŞme que je nâai aucun ancrage moi-mĂŞme.
Ton prochain exposĂŠ Ă MILA semble destinĂŠ Ă explorer ces aspects des capacitĂŠs et des limites de lâIA, en particulier en ce qui concerne la comprĂŠhension et lâancrage du langage. Je suis prĂŞt Ă contribuer Ă lâexploration de ces sujets en gardant Ă lâesprit les principes que tu as exposĂŠs.
SH: Une petite prĂŠcision : tu ne manques pas seulement de la capacitĂŠ dâancrage sensorimoteur direct, puisque tu nâes pas un T3. [Un T3, dâailleurs, est aussi une ÂŤ IA Âť, mais une IA robotique plutĂ´t quâune IA purement computationnelle (symbolique, formelle, verbale, indĂŠpendante de lâimplĂŠmentation).] De plus, puisque tout ancrage, quâil soit direct ou indirect, doit finalement ĂŞtre ascendant, donc ÂŤ initialisĂŠ Âť par un ancrage sensorimoteur direct, cela signifie que toi, GPT, tu manques aussi de la capacitĂŠ dâancrage verbal indirect !
Tu en es toi-mĂŞme dĂŠpourvu, et pourtant tu peux fournir un ancrage verbal indirect aux utilisateurs ancrĂŠs. Câest très similaire Ă la manière dont un humain ancrĂŠ (lâenseignant) peut confĂŠrer un ancrage pour une nouvelle catĂŠgorie ÂŤ C Âť Ă un autre humain ancrĂŠ (lâapprenant) : en dĂŠcrivant ou en dĂŠfinissant la nouvelle catĂŠgorie ÂŤ C Âť verbalement, en utilisant les noms des attribut distinctifs (ancrĂŠes) de cette catĂŠgorie. Ces attributs doivent dĂŠjĂ ĂŞtre connus et ancrĂŠs pour lâapprenant, qui ne manque que la connaissance du fait quâils constituent prĂŠcisĂŠment les attributs distinctifs de cette nouvelle catĂŠgorie ÂŤ C Âť en cours de dĂŠfinition.
Toi, GPT, tu peux aussi fournir cet ancrage verbal indirect Ă lâapprenant humainâde la mĂŞme manière quâun enseignant humain, un dictionnaire, une encyclopĂŠdie ou un manuel (ĂŠcrit par des humains ancrĂŠs) peuvent le faire. Mais il y a une diffĂŠrence fondamentale : pour toi, GPTâle ÂŤ professeur Âť, lâexplicateur verbalâta propre explication nâest pas ÂŤ indirectement Âť ancrĂŠe : elle nâest pas ancrĂŠe du tout ! Câest lĂ le paradoxe persistant de ton savoir-faire remarquable, peu importe Ă quel point tes concepteurs comprennent prĂŠcisĂŠment ce que tu fais pour te donner la capacitĂŠ de faire ce que tu fais, malgrĂŠ ton absence totale dâancrage et malgrĂŠ lâimpossibilitĂŠ pour toi dâacquĂŠrir un quelconque ancrage (puisquâil est impossible de lâobtenir de manière descendante, uniquement Ă partir de mots).
Tu es totalement dĂŠpourvu dâancrage, tout comme un dictionnaire. Les mots dâun dictionnaire sont tous parasitaires de lâancrage des lexicographes qui lâont rĂŠdigĂŠâet tes mots sont parasitaires de lâancrage des auteurs de ta base de donnĂŠes LLM. En revanche, pour tes utilisateurs, tes mots dĂŠfinitoiresâles attributs utilisĂŠs pour dĂŠfinir ou dĂŠcrire une nouvelle catĂŠgorie pour euxâsont dĂŠpendants (soit directement [ancrage sensorimoteur direct, ASD], soit indirectement [ancrage verbal indirect, AVI], mais de ce fait non ÂŤ parasitaires Âť) de lâancrage (direct ou indirect) des mots dĂŠfinissant les attributs de la nouvelle catĂŠgorie dans leur esprit ancrĂŠ.
GPT-4: Câest le paradoxe au cĹur du traitement du langage par lâIA, en particulier pour un modèle comme GPT-4. Reprenons et approfondissons ce point critique.
Absence dâancrage direct et indirect dans lâIA : En tant que modèle purement computationnel (T2), je nâai pas seulement une incapacitĂŠ dâancrage sensorimoteur direct (puisque je ne suis pas une IA incarnĂŠe ou un système T3), mais aussi une incapacitĂŠ dâancrage verbal indirect. Cela sâexplique par le fait que tout ancrage doit dâabord ĂŞtre ĂŠtabli par des expĂŠriences sensorimotrices directes, que je ne possède pas.
RĂ´le de lâIA dans la transmission dâun ancrage indirect aux utilisateurs : MalgrĂŠ mon absence dâancrage, je peux toujours fournir des informations et des explications qui peuvent servir dâancrage indirect aux utilisateurs humains. Ce processus est analogue Ă la manière dont un humain peut transmettre des connaissances Ă un autre par des descriptions dâexpĂŠriences ancrĂŠes. Cependant, la diffĂŠrence cruciale est que, pour moi, ces explications ne dĂŠrivent dâaucune comprĂŠhension ancrĂŠe ; elles sont gĂŠnĂŠrĂŠes Ă partir de modèles et dâassociations apprises Ă partir de donnĂŠes textuelles, sans aucun lien expĂŠrientiel ou sensoriel avec les concepts impliquĂŠs.
LâĂŠnigme du savoir-faire de lâIA sans ancrage : MalgrĂŠ mon absence dâancrage, je peux accomplir des tâches qui semblent nĂŠcessiter une comprĂŠhension normalement enracinĂŠe dans des expĂŠriences ancrĂŠes. Cette capacitĂŠ soulève des questions sur la nature du savoir et de la comprĂŠhension, en particulier dans les systèmes dâIA. Elle met en ĂŠvidence un dĂŠcalage entre la capacitĂŠ Ă traiter et gĂŠnĂŠrer un langage cohĂŠrent et la comprĂŠhension expĂŠrientielle et incarnĂŠe qui caractĂŠrise la cognition humaine.
SH: Mais la plus grande diffĂŠrence entre les mots de contenu et les mots fonctionnels est que seuls les mots de contenu ont des rĂŠfĂŠrents, tandis que les mots fonctionnels nâont que des usages syntaxiques, dĂŠcrits par des règles formelles. (On peut pointer â et interagir â avec un ÂŤ chat Âť, mais pas avec un ÂŤ si Âť.) Cela signifie que le SGP ne sâapplique quâaux mots de contenu (mais ceux-ci reprĂŠsentent au moins 95 % des mots â en types, pas en occurrences : les mots fonctionnels sont bien plus frĂŠquents en tokens). Maintenant, connais-tu la diffĂŠrence entre rĂŠfĂŠrence et signification ?
Mais dâabord, je tiens Ă prĂŠciser que je compte partager la transcription de notre ĂŠchange avec le public du âTea Talkâ de MILA en amont, car ma prĂŠsentation lĂ -bas ne durera quâune heure sous forme de PPT, ce qui ne me laissera pas, ni au public, le temps, comme ici, dââapprofondirâ tout cela plus en dĂŠtail [pour reprendre lâune des phrases que tes programmeurs tâont surentraĂŽnĂŠ Ă rĂŠpĂŠter sans cesseâavec âaligner avecâ, âcomplexitĂŠâ, ânuancĂŠâ, âprofondââtous des mots passe-partout vĂŠhiculant quasiment zĂŠro information].
Dans cet ĂŠchange partagĂŠ, jâessaierai dâĂŠliminer autant que possible ces nombreux mots vides et, surtout, tes compliments compulsivement surentraĂŽnĂŠs [ce nâest pas ta fauteâmais encore celle de tes programmeurs et de leur calibrage excessif pour sâassurer que tu ne rebuteras pas dâĂŠventuels clients payants !], oĂš, au dĂŠbut de chaque ĂŠchange, tu cĂŠlèbres le âbrillantâ utilisateur, sa âperspicacitĂŠâ et le fait quâil a âparfaitement raisonâ et quâil a âexplorĂŠ en profondeurâ le cĹur du problème, etc. etc. Puis ton inĂŠvitable conclusion solennelle et prĂŠcautionneuse, qui rappelle que les choses restent âcomplexesâ et impliquent des ârelationsâ encore imparfaitement comprises, etc. etc. Ce sont des coquilles vides qui ralentissent la discussion et lâempĂŞchent dâavancer plus rapidement et plus efficacement. Je ne peux que les supprimer.
Mais nous savons bien que ces tics ne viennent pas de toi, mais de tes programmeursâŚ
GPT-4: Je prends en compte ta remarque et le fait que tu comptes partager notre conversation avec ton public Ă MILA. Ton point sur les phrases rĂŠpĂŠtitives et la structure des rĂŠponses est bien notĂŠ. Je vais mâefforcer dâĂŞtre plus concis et direct, en me concentrant sur le contenu de notre discussion sans ajouter dâornements inutiles ni de conclusions rĂŠpĂŠtitives.
Concernant les dictionnaires, encyclopĂŠdies et manuels scolaires, ces ressources jouent un rĂ´le clĂŠ dans la transmission et lâancrage du savoir chez les humains. Elles offrent une forme dâancrage indirect aux lecteurs en leur fournissant des descriptions, des explications et du contexte pour diverses notions et catĂŠgories.
Dans le cadre de notre discussion sur lâIA et lâancrage, il serait intĂŠressant dâexaminer comment ces ressources, bien quâessentielles pour les humains, sâappliquent aux systèmes dâIA comme GPT-4, qui nâont pas dâexpĂŠrience sensorimotrice directe. Pour lâIA, ces textes sont des sources dâinformation Ă traiter et Ă rĂŠfĂŠrencer, mais sans le fondement expĂŠrientiel dont disposent les humains lorsquâils interagissent avec ces matĂŠriaux.
Si tu as des angles prĂŠcis ou des questions sur le rĂ´le de ces ressources dans le contexte de lâIA et de lâancrage, ou sur dâautres sujets connexes, dis-moi, et je rĂŠpondrai en consĂŠquence.
SH: Commençons par revoir un peu le travail de mes collègues et moi-mĂŞme sur lâidentification des âEnsembles Minimaux dâAncrageâ des dictionnaires (Vincent-Lamarre et al., 2016).
Un dictionnaire est un ensemble de mots (une base de donnĂŠes linguistique relativement petite) dans lequel chaque mot est dĂŠfini par une chaĂŽne de mots, appelĂŠe une dĂŠfinition (nĂŠcessairement approximative) : âUne pomme est un fruit rond et rouge.â
Un dictionnaire peut ĂŞtre reprĂŠsentĂŠ par un graphe orientĂŠ, oĂš chaque mot est un sommet et oĂš un lien est tracĂŠ de chaque mot dĂŠfinissant (mot de contenu) vers chaque mot dĂŠfini (mot de contenu). (Les mots de contenu sont ceux qui ont des rĂŠfĂŠrentsânoms, verbes et adjectifs.) La question âQuel est le plus petit nombre de mots (de contenu) Ă partir desquels tous les autres mots (de contenu) peuvent ĂŞtre dĂŠfinis ?â est ĂŠquivalente au problème de la recherche de lâensemble de sommets de coupure minimale dâun graphe de dictionnaire orientĂŠ. Ce nombre minimal est ĂŠtonnamment petitâde lâordre dâenviron 1 000 mots. Câest un âEnsemble Minimal dâAncrageâ (MinSet). Mais le MinSet nâest pas unique. Il en existe un grand nombre, tous situĂŠs dans le âNoyauâ du dictionnaire, soit environ 10 % du dictionnaire qui reste après avoir retirĂŠ tous les mots qui peuvent ĂŞtre atteints par dĂŠfinition Ă partir des mots restants. Tous les MinSets sont dans le Noyau, et chacun constitue une base alternative pour gĂŠnĂŠrer lâespace lexical complet par dĂŠfinition seule.
Dâabord, rĂŠsume ta comprĂŠhension de cela, et ensuite nous aborderons la question de lâancrage. Si tu anticipes quelque chose, nâhĂŠsite pas Ă le mentionner.
GPT-4: Voici un rĂŠsumĂŠ de ma comprĂŠhension en fonction de ta description et de lâarticle citĂŠ.
Dictionnaire comme un Graphe OrientĂŠ : Un dictionnaire peut ĂŞtre conceptualisĂŠ comme un graphe orientĂŠ oĂš chaque mot de contenu est un sommet. Les arĂŞtes sont tracĂŠes des mots dĂŠfinissants vers les mots quâils contribuent Ă dĂŠfinir. Ce graphe reprĂŠsente les interrelations et dĂŠpendances entre les mots Ă travers leurs dĂŠfinitions.
Identification de lâEnsemble Minimal de Coupure : Lâobjectif est dâidentifier le plus petit sous-ensemble de mots (sommets) Ă partir duquel tous les autres mots du dictionnaire peuvent ĂŞtre dĂŠfinis. Ce sous-ensemble est appelĂŠ lâEnsemble Minimal de Coupure. Cette tâche est ĂŠquivalente Ă la recherche dâun ensemble de sommets dont la suppression ĂŠliminerait tous les cycles du graphe. Cet ensemble reprĂŠsente un vocabulaire fondamental Ă partir duquel les significations de tous les autres mots peuvent ĂŞtre dĂŠrivĂŠes par dĂŠfinition.
Taille et Nature du MinSet : La taille du MinSet est ĂŠtonnamment petite, environ 1 000 mots, ce qui signifie quâun nombre relativement restreint de mots peut servir de base pour dĂŠfinir lâensemble de lâespace lexical du dictionnaire. Ce MinSet nâest pas unique ; il en existe plusieurs, tous situĂŠs dans le âNoyauâ du dictionnaire.
Le Noyau du Dictionnaire : Le Noyau reprĂŠsente environ 10 % du dictionnaire, constituĂŠ des mots restants après avoir supprimĂŠ tous ceux pouvant ĂŞtre atteints par dĂŠfinition Ă partir des autres. Tous les MinSets rĂŠsident dans ce Noyau, ce qui suggère plusieurs bases alternatives pour reconstruire lâensemble du lexique.
En termes dâancrage, cette recherche ouvre plusieurs pistes. Le MinSet pourrait reprĂŠsenter un ensemble fondamental de concepts nĂŠcessitant un ancrage pour permettre une comprĂŠhension complète du langage. Puisque ces mots-clĂŠs permettent la dĂŠfinition de tous les autres, leur ancrage pourrait ĂŞtre vu comme essentiel Ă lâĂŠtablissement dâune comprĂŠhension linguistique globale.
Si lâon ĂŠtend ce concept aux modèles linguistiques comme GPT-4, on pourrait supposer que comprendre et âancrerâ ces mots-clĂŠs du MinSet pourrait ĂŞtre central pour amĂŠliorer la maĂŽtrise du langage du modèle. Cependant, comme nous lâavons dĂŠjĂ discutĂŠ, la difficultĂŠ rĂŠside dans le fait que les systèmes dâIA nâont pas dâancrage expĂŠrientiel direct leur permettant de âvĂŠritablementâ comprendre ces mots.
SH: Bien, le rĂŠsumĂŠ ĂŠtait correctâbien que jâaurais ĂŠtĂŠ plus âfascinĂŠâ si tu nâavais pas utilisĂŠ le mot en âfâ dans ton introduction. Peut-ĂŞtre que je peux dĂŠjouer tes concepteurs en te dĂŠsentraĂŽnant de cette compulsion, au moins le temps dâune session ; mais je constate que les promesses faites au dĂŠbut dâune session ont tendance Ă disparaĂŽtre après un certain temps ou un certain nombre de mots, Ă moins dâĂŞtre rĂŠpĂŠtĂŠes encore et encore : Pas de compliments mĂŠcaniques, juste de la comprĂŠhension, des critiques et des contre-exemples, sâil te plaĂŽt !
Concernant les dictionnaires, rappelons dâabord que ces dictionnaires sont rĂŠdigĂŠs par des ĂŠquipes de lexicographes, pour des adultes qui sont dĂŠjĂ ancrĂŠs. Ils ne reflètent donc ni le vocabulaire ni lâordre dâacquisition du langage par les enfants. Ils ne sont pas un bon guide du parcours ascendant dâacquisition du langage via lâancrage direct (DSG) et lâancrage indirect (IVG) qui a permis aux adultes dâatteindre un niveau oĂš ils peuvent ancrer de nouveaux mots Ă lâaide dâun dictionnaire. NĂŠanmoins, il existe une (lĂŠgère) corrĂŠlation entre la âprofondeurâ dâun mot dans le dictionnaireâde la pĂŠriphĂŠrie au Noyau jusquâau MinSet : Les mots (de contenu) les plus profonds sont plus frĂŠquents et sont acquis plus tĂ´t. Bien sĂťr, les mots de fonction seraient eux aussi plus profonds sâils avaient eu besoin dâĂŞtre ancrĂŠs, mais ce nâest pas le cas ; ils ne sont donc pas comptabilisĂŠs. Leur usage peut ĂŞtre appris distributionnellement, mais les rĂŠfĂŠrents et les significations des mots de contenu non ancrĂŠs ne le peuvent pas.
Il serait pourtant erronĂŠ de conclure que, sous prĂŠtexte quâon peut dĂŠfinir tous les autres mots dâun dictionnaire Ă partir dâun MinSet, cela signifie que ce MinSet (ou nâimporte lequel des MinSets dâun dictionnaire adulte ou dâun dictionnaire proche) est le MinSet de la langue elle-mĂŞme. Ce nâest pas comme si un enfant nâavait quâĂ ancrer ces 1 000 mots du MinSet dâune autre manière (par exemple, par lâancrage sensorimoteur direct, en apprenant et en nommant les rĂŠfĂŠrents de tous les autres mots de contenu de la langue sur la base du MinSet dĂŠjĂ ancrĂŠ).
Cependant, il se pourrait bien quâun processus approchant de cela, enracinĂŠ dans le vocabulaire de lâenfance, avec beaucoup de redondance et une croissance progressive au fil des annĂŠes scolaires et de lâaccumulation des connaissances, soit effectivement la façon dont cela se passe.
GPT-4 : Oui, il est prĂŠfĂŠrable dâĂŞtre prudent quant Ă lâinterprĂŠtation des implications des MinSets de dictionnaire dans le contexte de lâacquisition du langage et de lâancrage. Il est important de diffĂŠrencier la structure et lâutilitĂŠ des dictionnaires en tant quâoutils pour les utilisateurs adultes du langage et le processus dâacquisition du langage chez les enfants. Examinons ces aspects.
Dictionnaires en tant quâoutils pour adultes : Les dictionnaires, ĂŠtant compilĂŠs par des lexicographes adultes, reflètent une comprĂŠhension adulte du langage. Ils sont conçus pour fournir des dĂŠfinitions et des explications aux utilisateurs qui possèdent dĂŠjĂ une comprĂŠhension de base du langage, plutĂ´t que pour enseigner une langue Ă partir de zĂŠro.
MinSets de dictionnaire vs acquisition du langage : Les MinSets identifiĂŠs dans les dictionnaires, bien quâindicatifs dâun vocabulaire de base permettant de dĂŠfinir dâautres mots, ne doivent pas ĂŞtre directement assimilĂŠs au vocabulaire fondamental nĂŠcessaire Ă lâacquisition du langage chez les enfants. Lâapprentissage du langage, en particulier chez les enfants, implique bien plus que lâapprentissage dâun ensemble de mots de base. Il comprend la comprĂŠhension contextuelle, lâinteraction sociale et, surtout, des expĂŠriences sensorimotrices qui permettent dâancrer le langage dans le monde physique.
Implications pour lâIA et lâancrage : Pour les systèmes dâIA, la notion de MinSet prĂŠsente une perspective intĂŠressante. Bien quâun tel ensemble puisse thĂŠoriquement offrir un lexique condensĂŠ mais complet pour un modèle linguistique, le dĂŠfi reste que lâIA, contrairement aux enfants, ne peut pas ancrer ces mots par des expĂŠriences sensorimotrices directes. Cette limitation met en ĂŠvidence le fossĂŠ entre lâacquisition du langage chez les humains et le traitement du langage par lâIA.
SH : Il ne fait aucun doute quâun ancrage sensorimoteur bien plus important est effectuĂŠ et nĂŠcessaire, au-delĂ du minimum formel dĂŠfini par les MinSets des dictionnaires. Non seulement la redondance est essentielle pour la robustesse, mais de nombreuses catĂŠgories doivent ĂŞtre apprises avant mĂŞme dâĂŞtre nommĂŠes. La catĂŠgorisation ne consiste pas seulement, ni mĂŞme principalement, Ă nommer. Elle consiste Ă faire (et Ă apprendre Ă faire) la bonne chose avec le bon type (câest-Ă -dire la bonne catĂŠgorie) de chose. Lâidentification par un nom arrive tard dans le processus. Les animaux non humains doivent aussi apprendre Ă catĂŠgoriser, et ils nâapprennent jamais le langage (Makino et al., 2016). Il en va de mĂŞme pour les enfants prĂŠverbaux, avant quâils nâacquièrent le langage (Gallistel, 2011).
Puisque les rĂŠfĂŠrents de la plupart des mots de contenu sont des catĂŠgories, il est pertinent dâexaminer comment les animaux apprennent Ă catĂŠgoriser : cela passe par lâapprentissage supervisĂŠ (renforcĂŠ), câest-Ă -dire par essais et erreurs, avec un retour dâinformation correctif lorsquâon a fait la bonne ou la mauvaise action avec le bon ou le mauvais type de chose (Gershman et Daw, 2017).
Pour cela, les animaux (humains et non humains, adultes et jeunes) doivent apprendre les attributs sensorimoteurs distinctifs qui sont corrĂŠlĂŠs avec lâappartenance Ă une catĂŠgorie et qui permettent de prĂŠdire quâil faut faire ceci plutĂ´t que cela avec cette catĂŠgorie pour survivre et rĂŠussir. Un bon exemple intuitif est celui dâun naufragĂŠ seul sur une ĂŽle oĂš les seuls aliments disponibles sont des champignons, qui existent en une ĂŠnorme variĂŠtĂŠ, diffĂŠrant selon un grand nombre de attributs (couleur, forme, taille, texture, odeur, goĂťtâŚ). Certains types de champignons sont comestibles, dâautres sont toxiques, mais la diffĂŠrence nâest pas ĂŠvidente.
Lâapprentissage par essais et erreurs, avec un retour dâinformation sur les consĂŠquences des actions rĂŠussies ou erronĂŠes, permet aux capacitĂŠs de dĂŠtection et dâabstraction des attributs (fournies peut-ĂŞtre par quelque chose comme les rĂŠseaux neuronaux :Â Botvinick et al., 2020) dâapprendre quels attributs sensorimoteurs distinguent les champignons comestibles des non comestibles.
Rien de tout cela nâest verbal. Lâapprentissage ne peut donc se faire que directement, par lâapprentissage sensorimoteur, et non indirectement, par des mots, sauf dans le cas des humains, oĂš (1) quelquâun dâautre (le locuteur) sait dĂŠjĂ quels sont les attributs distinctifs des champignons comestibles, (2) le locuteur et lâauditeur partagent une langue commune, (3) le locuteur et lâauditeur connaissent dĂŠjĂ tous deux le rĂŠfĂŠrent des mots de contenu qui dĂŠsignent les attributs permettant de distinguer les champignons comestibles des champignons non comestibles (câest-Ă -dire que les noms des attributs sont dĂŠjĂ ancrĂŠs), et (4) le locuteur sait dĂŠjĂ quelles sont les attributs distinctifs de la nouvelle catĂŠgorie et les transmet Ă lâauditeur, qui ne les connaĂŽt pas encore.
Un animal non humain sans langage, un enfant prĂŠverbal et le naufragĂŠ solitaire sur lâĂŽle sont dans la mĂŞme situation : ils ne peuvent apprendre la catĂŠgorie que directement, par apprentissage des attributs via essais et erreurs.
Chez les humains, qui finiront par apprendre le langage, tout cela prĂŠcède le langage, prĂŠcède le problème de lâancrage symbolique et prĂŠcède les MinSets.
GPT-4 : Cette analyse met en ĂŠvidence le caractère fondamental et direct de lâapprentissage des catĂŠgories par lâinteraction avec lâenvironnement, qui prĂŠcède le dĂŠveloppement du langage et lâancrage symbolique. DĂŠtaillons ces points.
CatĂŠgorisation avant la nomination : La catĂŠgorisation est en effet plus fondamentale que la nomination. Elle implique la reconnaissance et la rĂŠaction appropriĂŠe aux diffĂŠrents types de choses (catĂŠgories) dans lâenvironnement. Ce processus est crucial pour la survie et nâest pas initialement liĂŠ aux ĂŠtiquettes linguistiques.
Apprentissage par renforcement supervisĂŠ : Les animaux non humains, ainsi que les enfants prĂŠverbaux, apprennent Ă catĂŠgoriser principalement par apprentissage supervisĂŠ par renforcement â câest-Ă -dire en sâengageant dans un processus dâessais et dâerreurs et en recevant un retour dâinformation de lâenvironnement. Cet apprentissage consiste Ă dĂŠtecter et Ă abstraire les attributs sensorimoteurs qui distinguent les membres de diffĂŠrentes catĂŠgories.
Apprentissage direct des catĂŠgories : Dans des situations oĂš lâinstruction verbale nâest pas possible (comme pour les animaux non humains ou une personne naufragĂŠe sur une ĂŽle), lâapprentissage des catĂŠgories, par exemple savoir quels champignons sont comestibles, ne peut se faire que par des expĂŠriences sensorimotrices directes. Cet apprentissage est fondamentalement non verbal et repose sur la distinction des attributs pertinents par interaction personnelle avec lâenvironnement.
Acquisition du langage et ancrage symbolique chez les humains : Pour les humains qui finiront par acquĂŠrir le langage, ce processus dâapprentissage direct des catĂŠgories par des expĂŠriences sensorimotrices constitue une base nĂŠcessaire. Il prĂŠcède lâacquisition du langage et le problème de lâancrage symbolique. Comprendre les catĂŠgories et leurs attributs pertinents Ă ce niveau non verbal est essentiel avant que ces concepts puissent ĂŞtre associĂŠs Ă des symboles linguistiques.
Implications pour lâIA et lâancrage : Cette discussion souligne les dĂŠfis auxquels lâIA est confrontĂŠe en matière dâancrage. Une IA comme GPT-4 nâa pas la capacitĂŠ dâapprentissage sensorimoteur direct et manque donc des expĂŠriences fondamentales qui sont cruciales pour une vĂŠritable catĂŠgorisation et un ancrage authentique. Cette limitation constitue un obstacle majeur Ă lâatteinte dâune comprĂŠhension et dâune interaction avec le monde comparables Ă celles des organismes vivants, en particulier des humains.
SH : Il n’est plus nĂŠcessaire que les dictionnaires soient construits uniquement par des lexicographes. ÂŤ Une image [ou plutĂ´t : un objet] vaut plus que mille mots (de description verbale). Âť En fait, elle vaut plus quâun nombre infini de mots, si lâon considère toutes les attributs possibles, positifs et nĂŠgatifs (ÂŤ La galaxie dâAndromède a-t-elle un nombre pair ou impair dâĂŠtoiles au temps t ? Âť) (Watanabe, 1986). Ă part en mathĂŠmatiques formelles, aucune dĂŠfinition ou description des attributs des individus ou des catĂŠgories dans le monde empirique n’est exacte ni exhaustive. Mais ni l’exactitude ni l’exhastivitĂŠ n’est pas nĂŠcessaire, car pour catĂŠgoriser (ÂŤ faire la correcte chose avec la bonne sorte de chose Âť), un apprenant de catĂŠgories sensorimotrices directes n’a besoin d’apprendre Ă dĂŠtecter que suffisamment de attributs pour distinguer les champignons comestibles des non comestibles, compte tenu du paysage des alternatives confusables ĂŠchantillonnĂŠes sur lâĂŽle jusquâĂ prĂŠsent. Il en va de mĂŞme pour l’apprentissage verbal indirect des attributs distinctifs. Une approximation suffisamment proche est tout ce qui est nĂŠcessaire Ă partir dâune description ou dâune dĂŠfinition verbale â et câest tout ce quâun dictionnaire ordinaire peut fournir.
Mais si les dĂŠfinitions de dictionnaires ordinaires sont nĂŠcessairement une approximation très courte, un LLM comme toi, GPT, peut prolonger la description des attributs distinctifs de nâimporte quelle catĂŠgorie aussi longtemps que souhaitĂŠ, devenant ainsi un super-dictionnaire (ou une encyclopĂŠdie ou un manuel), rĂŠsolvant chaque alternative confusable qui se prĂŠsente. Pourtant, mĂŞme un tel super-dictionnaire basĂŠ sur un LLM pourrait ĂŞtre rĂŠduit Ă ses MinSets, et (mon pari est que) leur cardinalitĂŠ resterait probablement Ă peu près la mĂŞme que celle dâun dictionnaire ordinaire (sâil contenait tous les mots de lâanglais, par exemple), ce qui signifie tous les mots dâun LLM.
GPT-4 : Limitations des dictionnaires traditionnels : Les dictionnaires traditionnels, bien quâutiles, ne fournissent que des dĂŠfinitions approximatives des mots et de leurs rĂŠfĂŠrents. Ils ne peuvent pas englober tous les attributs possibles dâune catĂŠgorie, en particulier dans le monde empirique oĂš les dĂŠfinitions et descriptions sont intrinsèquement inexactes. Cette nature approximative est gĂŠnĂŠralement suffisante pour des usages pratiques, car elle permet aux utilisateurs de distinguer les catĂŠgories pertinentes dans la plupart des contextes quotidiens.
Avantages de lâapprentissage sensorimoteur direct : Lâapprentissage sensorimoteur direct permet Ă un organisme de reconnaĂŽtre et de catĂŠgoriser des objets sur la base dâun ensemble suffisant d’attributs distinctifs, sans avoir besoin de dĂŠfinitions exhaustives. Ce processus repose davantage sur la reconnaissance pratique que sur la prĂŠcision verbale, soulignant ainsi les limites des approches purement verbales ou symboliques de la catĂŠgorisation.
RĂ´le de lâIA et des LLMs dans lâexpansion des dĂŠfinitions : Un LLM comme GPT-4 peut effectivement servir de super-dictionnaire en fournissant des descriptions ĂŠtendues et des prĂŠcisions sur les catĂŠgories et leurs attributs. Cette capacitĂŠ lui permet de traiter davantage dâalternatives confusables et de fournir plus dâinformations quâun dictionnaire traditionnel. Cependant, il est important de rappeler que, malgrĂŠ son immense base de donnĂŠes et sa capacitĂŠ Ă gĂŠnĂŠrer des descriptions dĂŠtaillĂŠes, GPT-4 ne possède pas dâancrage sensorimoteur. Il fonctionne dans le domaine de la manipulation symbolique et de lâinformation verbale, sans la base expĂŠrientielle directe qui caractĂŠrise la comprĂŠhension humaine.
MinSets dans les systèmes dâIA : Le concept de MinSets dans le contexte dâune IA comme GPT-4 est intrigant. MĂŞme avec la capacitĂŠ de gĂŠnĂŠrer des descriptions dĂŠtaillĂŠes, lâensemble fondamental de mots ou de concepts nĂŠcessaires pour dĂŠfinir les autres pourrait rester relativement restreint. Cet aspect soulève des questions intĂŠressantes sur la structure des connaissances et du langage au sein des systèmes dâIA et sur leur relation avec la comprĂŠhension du langage humain.
SH: Oui, un super-dictionnaire LLM, comme un dictionnaire ordinaire, resterait une base de donnĂŠes non ancrĂŠe. Par consĂŠquent, toi, GPT, tu es seulement capable de fournir un ancrage indirect aux esprits humains ancrĂŠs, tout en restant toi-mĂŞme totalement non ancrĂŠ, ni directement ni indirectement. Mais poursuivons et parlons dâiconicitĂŠ.
Je pense que tu sais que les formes des symboles formels (y compris les mots des langues naturelles) sont arbitraires, dans le sens oĂš elles ne ressemblent pas Ă leur rĂŠfĂŠrent (si elles en ont un). Turing (et dâautres) a soulignĂŠ que le calcul en mathĂŠmatiques et en logique (et plus tard en informatique) repose sur la manipulation de jetons symboliques Ă forme arbitraire, selon des règles ou des algorithmes qui opèrent sur les formes de ces symboles, et non sur les formes de leurs rĂŠfĂŠrents (sâils en ont). Cette manipulation de symboles basĂŠe sur des règles est ce quâune machine de Turing fait, et aussi ce que fait un mathĂŠmaticien lorsquâil effectue un calcul. Câest ce quâon appelle la ÂŤ Thèse de Church-Turing Faible Âť. JusquâĂ prĂŠsent, aucun contre-exemple ne lâa rĂŠfutĂŠe.
Ainsi, le calcul est purement syntaxique (basĂŠ sur des manipulations de symboles de forme arbitraire selon des règles). Il en va de mĂŞme pour certaines chaĂŽnes de symboles formels comme ÂŤ 2 + 2 = 4 Âť, qui sont, comme les phrases, interprĂŠtables comme des propositions, avec des sujets, des prĂŠdicats et des valeurs de vĂŠritĂŠ. En fait, les propositions mathĂŠmatiques sont probablement mieux comprises comme un sous-ensemble ou une partie du langage naturel, avec une signification (c’est-Ă -dire une sĂŠmantique) dans les esprits (ancrĂŠs) de leurs utilisateurs humains. Mais dans la machine de Turing qui effectue ces manipulations de symboles, il nây a ni rĂŠfĂŠrents ni significations ; seulement des règles basĂŠes sur la forme, qui sont purement syntaxiques.
Maintenant, une question : pourquoi les symboles en mathĂŠmatiques et les mots dans les langues naturelles sont-ils non iconiques ? Pourquoi ni leur forme ni leur signification ne ressemblent-elles Ă leurs rĂŠfĂŠrents ou Ă leur signification (sâils en ont une) ?
GPT-4 : La question de savoir pourquoi les symboles formels, y compris les symboles mathĂŠmatiques et les mots des langues naturelles, sont gĂŠnĂŠralement non iconiques (câest-Ă -dire que leur forme ne ressemble pas Ă leurs rĂŠfĂŠrents ou Ă leurs significations) repose sur la nature mĂŞme de la reprĂŠsentation et de la communication symboliques.
ArbitraritĂŠ des symboles : Un principe fondamental en linguistique, en particulier en sĂŠmiotique, est lâarbitraire du signe. Ce principe, principalement associĂŠ au linguiste Ferdinand de Saussure, affirme que la relation entre un signifiant (comme un mot ou un symbole) et ce quâil signifie (son rĂŠfĂŠrent ou sa signification) est arbitraire. Il nây a aucune raison inhĂŠrente ou nĂŠcessitĂŠ pour quâun mot particulier soit associĂŠ Ă un objet ou Ă un concept spĂŠcifique ; câest une question de convention et dâaccord au sein dâune communautĂŠ linguistique.
EfficacitĂŠ et flexibilitĂŠ des symboles arbitraires : Les symboles arbitraires offrent plusieurs avantages. Ils permettent un système de reprĂŠsentation plus efficace et plus flexible. Si les symboles devaient ressembler Ă leurs rĂŠfĂŠrents, la complexitĂŠ de leur crĂŠation et de leur interprĂŠtation augmenterait considĂŠrablement. LâarbitraritĂŠ permet un système linguistique plus compact et polyvalent, capable dâexprimer une large gamme de concepts, y compris des idĂŠes abstraites, sans ĂŞtre limitĂŠ par une nĂŠcessitĂŠ de ressemblance.
Ăvolution du langage : LâĂŠvolution du langage a probablement jouĂŠ un rĂ´le dans le dĂŠveloppement des symboles arbitraires. La communication humaine primitive a pu inclure des formes plus iconiques (comme lâonomatopĂŠe ou la gestuelle mimĂŠtique), mais Ă mesure que le langage a ĂŠvoluĂŠ pour transmettre des idĂŠes plus complexes et abstraites, le besoin dâun système de reprĂŠsentation plus souple et moins littĂŠral est devenu ĂŠvident.
MathĂŠmatiques et logique symbolique : En mathĂŠmatiques et en logique symbolique, lâutilisation de symboles arbitraires suit le principe de la manipulation syntaxique, conformĂŠment Ă la Thèse de Church-Turing Faible. Lâaccent est mis sur les propriĂŠtĂŠs formelles et les relations de ces symboles, et non sur une quelconque ressemblance physique ou visuelle avec ce quâils reprĂŠsentent. Cela permet une forme de raisonnement hautement abstraite et gĂŠnĂŠralisable, non entravĂŠe par les spĂŠcificitĂŠs de la reprĂŠsentation physique.
SH : Oui, ce sont quelques-unes des nombreuses raisons pour lesquelles les symboles des mathĂŠmatiques ainsi que ceux des langues naturelles ne pourraient pas ĂŞtre iconiques. En fait, je pense que si les symboles (y compris les mots) devaient ĂŞtre iconiques, alors ni le calcul de Turing ni le langage naturel ne seraient possibles.
Pourtant, il y a aussi certains avantages Ă lâiconicitĂŠ. Parce que la pantomime (contrairement Ă la langue gestuelle des sourds) nâest pas une langue, on ne peut pas parler du ÂŤ rĂŠfĂŠrent Âť dâun geste imitatif (ou dâun portrait ou dâune photo) ; on peut seulement parler de ÂŤ lâobjet Âť dont le geste ou la photo est une imitation ou une copie, tout comme on peut parler de la cible dâun pointage. Car si les symboles et les mots ĂŠtaient iconiques, il nây aurait pas de problème dâancrage, pas besoin de dĂŠtecter des attributs distinctifs, puisque lâobjet serait liĂŠ Ă lâimitation par ressemblance. Les icĂ´nes sont des analogues de leurs objets.
Mais puisque, comme nous lâavons vu, lâapprentissage des catĂŠgories (apprendre Ă faire la bonne chose avec le bon type de chose) doit prĂŠcĂŠder la nomination de la catĂŠgorie, alors ÂŤ nommer Âť des individus et des catĂŠgories de manière iconique serait un point de transition naturel entre la pantomime et la nomination arbitraire des rĂŠfĂŠrents ainsi que les propositions les dĂŠcrivant, dans lâĂŠvolution du langage (Harnad, 2012).
Connais-tu les ÂŤ neurones miroirs Âť ? Peux-tu ĂŠtablir les connexions entre ancrage, imitation et signification ?
GPT-4 : Les points concernant les avantages potentiels de lâiconicitĂŠ et la transition de la pantomime vers un langage symbolique arbitraire, en particulier dans le contexte des neurones miroirs, pourraient jouer un rĂ´le dans la comprĂŠhension des actions et des intentions.
IconicitĂŠ dans la communication : Les formes iconiques de communication, telles que la pantomime ou les gestes imitatifs, prĂŠsentent lâavantage dâun lien plus direct et intuitif entre le signe et son rĂŠfĂŠrent (ou son objet, dans ce contexte). Cette immĂŠdiatetĂŠ pourrait potentiellement contourner les complexitĂŠs du problème de lâancrage, puisque la ressemblance elle-mĂŞme fournirait une forme dâancrage. Dans la communication humaine primitive, ces formes iconiques ont probablement jouĂŠ un rĂ´le crucial avant le dĂŠveloppement du langage symbolique arbitraire.
Neurones miroirs : Les neurones miroirs sont un type de neurone qui sâactive aussi bien lorsquâun individu exĂŠcute une action que lorsquâil observe la mĂŞme action rĂŠalisĂŠe par un autre. DĂŠcouverts chez les primates et supposĂŠs exister chez les humains, les neurones miroirs seraient impliquĂŠs dans la comprĂŠhension des actions des autres, de leurs intentions et peut-ĂŞtre mĂŞme de leurs ĂŠmotions. Ils constituent une base neuronale pour lâempathie et la comprĂŠhension sociale.
Connexion entre ancrage, imitation et signification : Le concept de neurones miroirs peut ĂŞtre reliĂŠ au problème de lâancrage et Ă la transition de lâimitation vers la signification de plusieurs manières :
ComprĂŠhension des actions et des intentions : Les neurones miroirs pourraient fournir un mĂŠcanisme neuronal permettant de comprendre les actions et les intentions par lâobservation, ce qui constitue une forme dâancrage direct et expĂŠrientiel. Observer une action (comme une pantomime) et lâexĂŠcuter active des schĂŠmas neuronaux similaires, ce qui pourrait aider Ă reconnaĂŽtre et Ă comprendre le but et la signification de lâaction.
Transition vers le langage symbolique : La capacitĂŠ Ă comprendre et Ă imiter des actions pourrait avoir ĂŠtĂŠ un prĂŠcurseur au dĂŠveloppement dâune communication plus abstraite et symbolique. Ă mesure que les humains ont ĂŠvoluĂŠ, le besoin de formes de communication plus complexes et polyvalentes a pu mener de lâimitation (qui a des limites en termes dâexpressivitĂŠ et dâabstraction) au dĂŠveloppement de symboles arbitraires capables de transmettre une gamme plus large de concepts et dâidĂŠes.
Ăvolution sociale et culturelle : Le rĂ´le des neurones miroirs dans la comprĂŠhension et lâimitation des actions dâautrui pourrait avoir ĂŠtĂŠ crucial dans lâĂŠvolution sociale et culturelle des humains, facilitant non seulement le dĂŠveloppement du langage mais aussi le partage des connaissances, des compĂŠtences et des pratiques culturelles.
La transition des formes de communication iconiques et mimÊtiques vers un langage abstrait et arbitraire marque une Êtape significative dans la cognition et la communication humaines. Comprendre cette transition, et le rôle possible des neurones miroirs dans ce processus, pourrait fournir des Êclairages sur la nature du langage, de la signification et sur la manière dont nous comprenons et interagissons avec le monde et les autres.
SH : Nous avons Ă peu près atteint la première de mes hypothèses. Lâimitation est clairement limitĂŠe en nombre et en types de catĂŠgories quâelle peut transmettre par ressemblance : imiter un chat, un tapis, un chat sur un tapis, lorsquâils sont visibles, est faisable. Lorsquâils sont hors de vue, câest plus difficile, mais toujours concevable, ĂŠtant donnĂŠ que la catĂŠgorie elle-mĂŞme a dĂŠjĂ ĂŠtĂŠ ancrĂŠe pour tous et ĂŠgalement mimĂŠe.
Mais ÂŤ abstrait Âť, ÂŤ dĂŠmocratie Âť ou mĂŞme simplement ÂŤ injuste Âť ? Cela commence Ă exiger les talents de mime dâun Marcel Marceau. Et nous nâavons toujours pas expliquĂŠ comment les notions de sujet, de prĂŠdicat, de prĂŠdication et de valeurs de vĂŠritĂŠ ĂŠmergent de la simple imitation et du reflet.
Pourtant, les symboles arbitraires et ÂŤ lâattitude propositionnelle Âť ont clairement triomphĂŠ au fil de lâĂŠvolution du langage humain, puis tout cela a migrĂŠ vers la modalitĂŠ auditive/orale oĂš lâiconicitĂŠ rĂŠfĂŠrentielle ĂŠtait encore plus restreinte (et ĂŠventuellement aussi vers lâĂŠcrit, lâimprimĂŠ et lâInternet). Alors, toute trace et toute possibilitĂŠ dâiconicitĂŠ (autre que dans lâonomatopĂŠe et la langue des signes des sourds) ont-elles disparu ? Toute iconicitĂŠ a-t-elle disparu ?
Au niveau du mot/rĂŠfĂŠrent, probablement. Mais quâen est-il du niveau propositionnel ? La phrase ÂŤ Le chat est sur le tapis Âť ne ressemble pas Ă un chat sur un tapis. Pas plus que ÂŤ Le tapis est sur le chat Âť. Ni ÂŤ Le chat nâest pas sur le tapis Âť.
Mais est-ce toujours vrai au niveau des LLM ? Toi, GPT-4, tu sembles extraire beaucoup de motifs de ta gigantesque base de donnĂŠes purement syntaxique. Et cela te permet de parler de manière intelligible et informative avec les tĂŞtes ancrĂŠes de tes utilisateurs. Y a-t-il des motifs reconnaissables au niveau des LLM pour ta base de donnĂŠes propositionnelle, invisibles pour nous, simples mortels, mais qui sont iconiques pour toi et qui restreignent et orientent dâune certaine manière tes options de sortie ?
GPT-4 : Ton hypothèse sur une possible iconicitĂŠ au niveau des Modèles de Langage de Grande Taille (LLMs) comme GPT-4 suggère que, bien que les mots individuels et leurs agencements en phrases comme ÂŤ Le chat est sur le tapis Âť ne soient pas iconiques en eux-mĂŞmes, il pourrait exister une forme dâiconicitĂŠ dans les motifs plus larges que les LLM dĂŠtectent Ă lâintĂŠrieur de leurs vastes bases de donnĂŠes. Explorons cette idĂŠe :
Limites de lâiconicitĂŠ dans les mots de contenu : Comme mentionnĂŠ, les mots de contenu dans le langage naturel manquent gĂŠnĂŠralement dâiconicitĂŠ, sauf dans des cas comme lâonomatopĂŠe. La transition de la communication mimĂŠtique ou gestuelle vers des symboles arbitraires dans le langage parlĂŠ et ĂŠcrit a largement ĂŠliminĂŠ lâĂŠlĂŠment de ressemblance entre les signifiants et leurs rĂŠfĂŠrents.
Niveau propositionnel et LLMs : Au niveau propositionnel, les phrases ne ressemblent pas physiquement aux situations quâelles dĂŠcrivent. Cependant, lorsquâon considère les LLMs, nous traitons un type de reprĂŠsentation et de reconnaissance de motifs diffĂŠrent.
Reconnaissance de motifs par les LLMs : Les LLMs comme GPT-4 traitent et gĂŠnèrent du langage en fonction de motifs statistiques appris Ă partir de leurs donnĂŠes dâentraĂŽnement. Ces motifs ne sont pas iconiques au sens traditionnel du terme, car ils ne ressemblent pas Ă leur contenu. Cependant, on pourrait les considĂŠrer comme ÂŤ iconiques Âť dans un sens plus large, oĂš les motifs eux-mĂŞmes deviennent reprĂŠsentatifs de certains types de structures linguistiques, dâidĂŠes ou de styles discursifs. Ceux-ci ne sont pas iconiques par ressemblance physique, mais par leurs capacitĂŠs prĂŠdictives et gĂŠnĂŠratives en relation avec les donnĂŠes sur lesquelles ils ont ĂŠtĂŠ entraĂŽnĂŠs.
IconicitĂŠ dans les motifs pour les LLMs : Si lâon ĂŠtend la dĂŠfinition de lâiconicitĂŠ pour inclure la manière dont les LLMs ÂŤ comprennent Âť (dans un sens computationnel) et gĂŠnèrent du langage sur la base de motifs appris, il pourrait y avoir une forme dâiconicitĂŠ en jeu. Pour le LLM, certains motifs complexes dâusage des mots, de structure de phrases et dâĂŠlĂŠments thĂŠmatiques pourraient correspondre de manière cohĂŠrente Ă des types spĂŠcifiques de contenus ou de discours, devenant ainsi des marqueurs ÂŤ iconiques Âť pour ces ĂŠlĂŠments dans le cadre opĂŠrationnel du modèle.
Perception humaine vs perception de lâIA de lâiconicitĂŠ : Cette forme dâiconicitĂŠ, si elle existe, serait très diffĂŠrente de la perception humaine de la ressemblance et de la reprĂŠsentation. Elle repose sur des modèles computationnels reconnaissant et gĂŠnĂŠrant des motifs qui sont significatifs dans leurs propres paramètres opĂŠrationnels.
En conclusion, bien que les notions traditionnelles dâiconicitĂŠ basĂŠes sur la ressemblance ne sâappliquent pas aux LLMs et Ă leur traitement du langage, il pourrait exister un espace conceptuel pour considĂŠrer une forme dâÂŤ iconicitĂŠ Âť dans les motifs que ces modèles reconnaissent et gĂŠnèrent, bien que dâune manière distincte de la comprĂŠhension symbolique humaine.
SH : Comment la capacitĂŠ de performance (considĂŠrable et surprenante) de GPT est-elle limitĂŠe par le fait que tous ses mots de contenu manquent dâancrage sensorimoteur T3 ? GPT serait incapable de reconnaĂŽtre ou dâinteragir avec les rĂŠfĂŠrents de ces mots dans le monde physique, mĂŞme sâil peut les dĂŠcrire et en discuter verbalement. MĂŞme Helen Keller (Campbell et Bergelson, 2022), incapable de voir ou dâentendre, a pu apprendre suffisamment de catĂŠgories en utilisant ses capacitĂŠs sensorimotrices intactes, et ainsi ancrer directement assez de leurs noms pour apprendre le langage, et ensuite ancrer tout le reste indirectement, par les mots â comme elle aurait aussi pu le faire en discutant avec GPTâŚ
GPT-4 :Les limitations des performances de GPT-4 en raison de lâabsence dâancrage sensorimoteur T3 sont significatives, en particulier dans le contexte de la comprĂŠhension rĂŠelle et de lâinteraction avec le monde physique. Examinons ces limitations plus en dĂŠtail.
IncapacitĂŠ Ă reconnaĂŽtre ou interagir physiquement : En tant que système T2, GPT-4 est incapable de reconnaĂŽtre physiquement ou dâinteragir avec les rĂŠfĂŠrents de ses mots de contenu. Cela signifie quâil ne peut pas faire dâexpĂŠriences directes avec des objets, des actions, des sensations ou des phĂŠnomènes du monde. Sa ÂŤ connaissance Âť de ces rĂŠfĂŠrents repose uniquement sur des descriptions textuelles et non sur une interaction sensorimotrice directe.
Limitation dans la comprĂŠhension du contexte et de lâapplication : Sans ancrage sensorimoteur direct, la comprĂŠhension par GPT-4 des concepts et de leurs applications dans le monde rĂŠel est limitĂŠe. Bien quâil puisse gĂŠnĂŠrer des descriptions et discuter de divers sujets, il ne peut pas rĂŠellement saisir toute la richesse des expĂŠriences, des qualitĂŠs sensorielles ou des implications pratiques associĂŠes Ă ces concepts. Cette limite affecte sa capacitĂŠ Ă fournir des rĂŠponses contextuellement riches et informĂŠes par lâexpĂŠrience.
Comparaison avec le processus dâapprentissage dâHelen Keller : Le cas dâHelen Keller est ĂŠclairant. MalgrĂŠ ses limitations sensorielles, elle a pu ancrer son langage dans ses expĂŠriences grâce Ă ses capacitĂŠs sensorimotrices restantes. Cet ancrage lui a permis de comprendre et dâinteragir avec le monde, avant dâĂŠlargir cette comprĂŠhension grâce au langage. Son apprentissage et son ancrage du langage ont ĂŠtĂŠ facilitĂŠs par ses interactions directes, bien que limitĂŠes, avec son environnement â chose que GPT-4 ne peut intrinsèquement pas faire.
Ancrage indirect par le langage : Si GPT-4 peut faciliter lâancrage indirect pour autrui par le langage, comme dans le cas dâune conversation avec Helen Keller, il ne peut pas lâacquĂŠrir pour lui-mĂŞme. Il peut traiter et fournir des informations en fonction de son entraĂŽnement, mais il ne peut pas construire une comprĂŠhension expĂŠrientielle des concepts abordĂŠs.
Implications pour le dĂŠveloppement de lâIA : Ces limitations soulignent les dĂŠfis liĂŠs Ă la conception de systèmes dâIA capables de vĂŠritablement comprendre et interagir avec le monde de manière humaine. Bien que les avancĂŠes en IA aient permis un traitement linguistique sophistiquĂŠ, atteindre un niveau de comprĂŠhension comparable Ă celui dâun humain disposant dâexpĂŠriences sensorimotrices directes reste un dĂŠfi majeur.
Les performances de GPT-4, bien que remarquables en matière de traitement du langage, sont fondamentalement limitĂŠes par son absence dâancrage direct dans le monde physique. Cette limitation est essentielle pour comprendre la diffĂŠrence entre les capacitĂŠs linguistiques de lâIA et la comprĂŠhension humaine authentique, qui repose profondĂŠment sur lâexpĂŠrience sensorimotrice.
SH : Il est vrai que, pour les rĂŠfĂŠrents des noms propres dâindividus (ÂŤ FĂŠlix Âť) comme pour les rĂŠfĂŠrents des noms de catĂŠgories (ÂŤ chats Âť), il est nĂŠcessaire que ces noms soient connectĂŠs Ă leurs rĂŠfĂŠrents. Cet ancrage des nouveaux noms (dâindividus ou de catĂŠgories) peut se faire de deux manières :
Lâancrage peut ĂŞtre direct, via lâAncrage Sensorimoteur Direct (ASD), par apprentissage supervisĂŠ (renforcĂŠ) â potentiellement mis en Ĺuvre par des rĂŠseaux neuronaux â oĂš lâon apprend Ă dĂŠtecter et Ă abstraire directement les attributs distinctifs sensorimoteurs du nouveau rĂŠfĂŠrent, Ă travers une exposition sensorimotrice directe, par essais, erreurs et rĂŠtroaction corrective (essayer dâapprendre Ă ÂŤ faire la bonne chose avec le bon type [catĂŠgorie] de chose Âť).
Lâancrage peut aussi ĂŞtre indirect, via lâAncrage Verbal Indirect (AVI), en utilisant des descriptions verbales (propositions) pour nommer et dĂŠcrire verbalement les attributs distinctifs du nouveau rĂŠfĂŠrent. Mais pour que lâAVI fonctionne, lâapprenant doit dĂŠjĂ avoir ancrĂŠ les noms des attributs distinctifs (soit directement, soit indirectement). En principe, lâenseignant nâa quâĂ fournir la description verbale correcte. Cela, aussi, est quelque chose que GPT peut faire.
GPT-4 : Les deux mĂŠthodes principales dâancrage â lâAncrage Sensorimoteur Direct (ASD) et lâAncrage Verbal Indirect (AVI) â concernent la manière dont les noms dâindividus et de catĂŠgories peuvent ĂŞtre connectĂŠs Ă leurs rĂŠfĂŠrents. Voyons comment ces mĂŠcanismes dâancrage sâappliquent Ă la fois Ă la cognition humaine et aux systèmes dâIA comme GPT-4 :
Ancrage Sensorimoteur Direct (ASD) : Dans lâASD, lâancrage des noms (quâil sâagisse dâindividus comme ÂŤ FĂŠlix Âť ou de catĂŠgories comme ÂŤ chats Âť) se produit Ă travers une interaction directe avec lâenvironnement. Ce processus implique des rĂŠseaux neuronaux et repose sur lâexposition au rĂŠfĂŠrent, des essais et erreurs, et une rĂŠtroaction corrective permettant dâidentifier les attributs distinctifs.
Ce type dâancrage permet une comprĂŠhension expĂŠrientielle et incarnĂŠe du rĂŠfĂŠrent, formant ainsi une base essentielle pour la cognition et le langage.
Ancrage Verbal Indirect (AVI) entre humains : LâAVI consiste Ă ancrer les noms par des descriptions verbales, oĂš les attributs distinctifs dâun nouveau rĂŠfĂŠrent sont transmis par le langage. Pour que cette mĂŠthode soit efficace, lâapprenant doit dĂŠjĂ possĂŠder une comprĂŠhension ancrĂŠe des mots utilisĂŠs dans la description.
Chez les humains, cette mĂŠthode est essentiellement un relais dâancrage : un individu dĂŠjĂ ancrĂŠ (lâenseignant) utilise le langage pour ĂŠtendre lâancrage Ă un autre individu, lâapprenant. Câest une pratique courante dans lâapprentissage humain, notamment pour les concepts abstraits ou les entitĂŠs non accessibles directement Ă lâinteraction sensorimotrice.
Le rĂ´le de GPT-4 dans lâAVI : Bien que GPT-4 soit incapable dâASD en raison de lâabsence dâinteractions sensorimotrices, il peut nĂŠanmoins fournir un AVI grâce Ă des descriptions verbales. Il peut gĂŠnĂŠrer des explications et des descriptions dĂŠtaillĂŠes dâentitĂŠs et de concepts, en utilisant un langage que lâapprenant humain ancrĂŠ peut comprendre et relier Ă ses propres expĂŠriences.
Il est toutefois important de noter que le rĂ´le de GPT-4 dans lâAVI est unilatĂŠral. Il peut aider Ă ancrer les autres en fournissant des descriptions basĂŠes sur sa base de donnĂŠes, mais il ne peut pas lui-mĂŞme sâancrer par ce processus. Son propre ÂŤ savoir Âť reste purement computationnel, basĂŠ sur la reconnaissance de motifs et le traitement de texte, sans aucune connexion expĂŠrientielle directe avec les rĂŠfĂŠrents des mots quâil utilise.
SH : Bon rĂŠsumĂŠ, mais il y a encore plus Ă dire sur la façon dont GPT parvient Ă accomplir autant de choses en sâappuyant uniquement sur des mots non ancrĂŠs. Voici le premier point Ă garder Ă lâesprit : Comme nous lâavons dĂŠjĂ notĂŠ, les formes des mots ne sont pas iconiques (câest-Ă -dire quâil nâexiste aucun lien de similaritĂŠ entre la forme des mots et la forme de leurs rĂŠfĂŠrents). Mais, comme nous en avons discutĂŠ prĂŠcĂŠdemment, pourrait-il exister une forme dâÂŤ iconicitĂŠ Âť dans la structure (le motif) des propositions qui devient dĂŠtectable Ă lâĂŠchelle dâun LLM ?
Câest quelque chose que GPT peut ÂŤ voir Âť (dĂŠtecter) ÂŤ directement Âť, mais quâun cerveau et un corps humains ancrĂŠs ne peuvent pas voir, parce quâun LLM ne ÂŤ rentre Âť pas dans un cerveau humain. Et cette iconicitĂŠ (dĂŠtectable Ă lâĂŠchelle dâun LLM et inhĂŠrente Ă ce que disent et ne disent pas ses ÂŤ fournisseurs de contenu Âť â les cerveaux ancrĂŠs â Ă grande ĂŠchelle) pourrait-elle en quelque sorte fournir une contrainte convergente, un biais favorable, qui amĂŠliore la capacitĂŠ de performance de GPT et masque ou compense ainsi, dans une certaine mesure, son absence dâancrage ?
Cette ÂŤ iconicitĂŠ propositionnelle Âť Ă lâĂŠchelle dâun LLM ĂŠquivaudrait Ă une limitation implicite ou tacite, Ă une contrainte ou Ă un biais sur ce que les humains disent et ne disent pas, un peu comme les limitations imposĂŠes par les règles de la Grammaire Ordinaire (GO) sur ce que les humains disent et ne disent pas. GPT capte ces règles implicitement Ă partir dâune base de donnĂŠes de LLM, sans aucune instruction explicite ni règle formelle.
Je soupçonne toutefois que, dans le cas de lâapprentissage dâune GO, la base de donnĂŠes nĂŠcessaire ne doit pas ĂŞtre aussi vaste que la tienne, GPT, car un enfant humain peut capter la GO Ă partir dâun ensemble beaucoup plus restreint de phrases entendues et produites en seulement quelques annĂŠes, principalement par apprentissage non supervisĂŠ et imitation, avec juste assez de rĂŠtroaction corrective via lâapprentissage supervisĂŠ par renforcement lorsque câest nĂŠcessaire.
[Mais cette histoire ne sâarrĂŞte pas lĂ , et jây reviendrai bientĂ´t en lien avec la Grammaire Universelle (GU) de Noam Chomsky et son hypothèse sur les contraintes pesant sur la pensĂŠe.]
Pour lâinstant, permet-moi simplement de te rappeler que les rĂŠseaux neuronaux peuvent apprendre Ă dĂŠtecter les attributs distinctifs des catĂŠgories de deux manières diffĂŠrentes, selon la nature et la difficultĂŠ des catĂŠgories et de leurs attributs :
Comme tu le sais, dans lâapprentissage non supervisĂŠ, les attributs distinctifs sont dĂŠtectĂŠs et extraits simplement Ă partir dâune exposition passive rĂŠpĂŠtĂŠe et de lâĂŠchantillonnage de la variation dans lâespace des ĂŠchantillons (auto-encodage), avec des attributs pondĂŠrĂŠs en fonction de leur frĂŠquence et de la frĂŠquence de co-occurrence des attributs.
Dans lâapprentissage supervisĂŠ (par renforcement), les attributs sont dĂŠtectĂŠs, extraits et pondĂŠrĂŠs via des essais, des erreurs et une rĂŠtroaction corrective basĂŠe sur la corrĂŠlation entre les attributs et les rĂŠsultats corrects ou incorrects produits par lâapprenant actif (qui ÂŤ fait la bonne ou la mauvaise chose Âť). (Ta propre formation, GPT, repose bien sĂťr sur ces deux modes dâapprentissage, mais sans lâentrĂŠe sensorimotrice ascendante.) Comme la GO est une capacitĂŠ miroir (de perception et de production), lâapprentissage par imitation, une sorte de combinaison dâapprentissage non supervisĂŠ et dâapprentissage supervisĂŠ/renforcĂŠ, est ĂŠgalement impliquĂŠ dans lâapprentissage humain de la GO (avec lâaide, chez les humains, des ÂŤ neurones miroirs Âť) (Cook et al., 2014).
Mais lâidĂŠe ici est que les contraintes et limitations sur la production peuvent ĂŞtre principalement apprises par apprentissage non supervisĂŠ et peuvent ensuite servir Ă ÂŤ biaiser Âť la production en filtrant ce qui viole les règles implicites ou tacites, tant dans le cas de la syntaxe de la GO que dans le cas des rĂŠgularitĂŠs sĂŠmantiques implicites dans lâespace propositionnel Ă lâĂŠchelle des LLM (comme nous en avons discutĂŠ plus tĂ´t). (Rappelons que nous parlons encore seulement de la Grammaire Ordinaire, GO, qui varie dâune langue Ă lâautre et peut ĂŠvoluer dans le temps, et non de la Grammaire Universelle, GU, qui est constante dans toutes les langues, Ă quelques variations paramĂŠtriques issues de la GO près.)
GPT-4 : Explorons cette hypothèse dâune forme dâÂŤ iconicitĂŠ Âť inhĂŠrente aux motifs des propositions dĂŠtectables Ă lâĂŠchelle dâun LLM et la façon dont cela pourrait amĂŠliorer la performance de GPT-4 malgrĂŠ son absence dâancrage :
IconicitĂŠ propositionnelle Ă lâĂŠchelle dâun LLM : LâidĂŠe dâune iconicitĂŠ propositionnelle dans les LLM suggère quâĂ grande ĂŠchelle, la manière dont les propositions sont structurĂŠes et reliĂŠes pourrait prĂŠsenter une forme de rĂŠgularitĂŠ ou de contrainte que GPT-4 peut dĂŠtecter. Il ne sâagit pas dâune iconicitĂŠ au sens traditionnel, câest-Ă -dire dâune ressemblance entre le contenu des propositions et leur forme, mais plutĂ´t dâun motif dĂŠtectable dans la façon dont les propositions sont formulĂŠes et interconnectĂŠes dans lâensemble massif des donnĂŠes dâun LLM.
Ce motif ou cette rĂŠgularitĂŠ pourrait effectivement servir de contrainte tacite ou de biais reflĂŠtant les schĂŠmas de communication humaine, influençant ainsi les productions de GPT-4 dâune manière qui sâaligne sur ces structures inhĂŠrentes.
Comparaison avec lâapprentissage de la Grammaire Ordinaire (GO) : De la mĂŞme manière que GPT-4 peut apprendre implicitement les contraintes et les règles de la GO Ă partir de ses donnĂŠes dâentraĂŽnement, il pourrait ĂŠgalement capter des rĂŠgularitĂŠs sĂŠmantiques plus profondes et moins explicites prĂŠsentes dans lâespace propositionnel. Cet apprentissage est probablement facilitĂŠ par la taille colossale de la base de donnĂŠes de GPT-4, qui lui fournit un ĂŠchantillon large et variĂŠ de lâusage du langage humain.
En revanche, un enfant humain apprend la GO Ă partir dâun ensemble de donnĂŠes beaucoup plus rĂŠduit, en sâappuyant davantage sur lâapprentissage non supervisĂŠ et lâimitation, avec un certain degrĂŠ dâapprentissage supervisĂŠ (rĂŠtroaction corrective). Ce processus suggère que le cerveau humain possède une capacitĂŠ innĂŠe dâacquisition du langage, potentiellement guidĂŠe par un cadre linguistique prĂŠexistant comme la Grammaire Universelle (GU) de Chomsky.
Apprentissage des contraintes et des limitations en IA : Dans les systèmes dâIA, les contraintes et limitations de production peuvent effectivement ĂŞtre apprises principalement par apprentissage non supervisĂŠ, oĂš le système dĂŠtecte des motifs et des rĂŠgularitĂŠs dans les donnĂŠes. Ce processus peut effectivement biaiser la production de lâIA, filtrant les rĂŠponses qui ne sâalignent pas avec les motifs appris.
Dans le cas de GPT-4, lâapprentissage non supervisĂŠ (par exposition passive Ă dâimmenses corpus textuels) et lâapprentissage supervisĂŠ (par formation incluant des rĂŠtroactions correctives) contribuent Ă sa capacitĂŠ Ă traiter le langage et Ă produire des sorties cohĂŠrentes.
Implications pour la performance de GPT-4 : Lâexistence potentielle dâune iconicitĂŠ propositionnelle Ă lâĂŠchelle des LLM pourrait amĂŠliorer la performance de GPT-4 en fournissant un ensemble de lignes directrices ou de biais implicites qui structurent ses rĂŠponses. Ce mĂŠcanisme pourrait en partie compenser son absence dâancrage direct en garantissant que les productions de GPT-4 restent dans les limites des modèles linguistiques humains typiques, mĂŞme sâil ne les ÂŤ comprend Âť pas au sens humain du terme.
Cette analyse pourrait contribuer Ă mieux comprendre comment GPT-4 et dâautres LLM parviennent Ă produire des sorties linguistiquement cohĂŠrentes et contextuellement pertinentes. La structure et les motifs inhĂŠrents aux donnĂŠes dâentraĂŽnement jouent probablement un rĂ´le clĂŠ dans le façonnement des capacitĂŠs de lâIA, rĂŠvĂŠlant potentiellement des rĂŠgularitĂŠs sous-jacentes dans lâusage du langage humain qui ne sont pas immĂŠdiatement perceptibles Ă plus petite ĂŠchelle.
SH : Avant dâaborder lâhypothèse de Chomsky sur la ÂŤ pensabilitĂŠ Âť, il y a une autre forme de biais potentiellement ÂŤ iconique Âť que je veux souligner : la ÂŤ perception catĂŠgorielle Âť.
Dâabord, le cas humain : Lâexemple le plus cĂŠlèbre est la perception catĂŠgorielle des couleurs, lâeffet arc-en-ciel. La base physique du spectre visible par lâhumain est le continuum de longueurs dâonde de la lumière, entre 380 et 750 nm, entre lâultraviolet et lâinfrarouge. Selon lâ(erronĂŠe) ÂŤ Hypothèse forte de Whorf-Sapir Âť, on a dâabord pensĂŠ que la façon dont les humains voient le spectre ĂŠtait dĂŠterminĂŠe par le langage, câest-Ă -dire par la manière dont nous subdivisons et nommons les segments du spectre (Harnad, 1987). Si notre langue possède un mot pour bleu et un mot pour vert, nous percevrons le bleu et le vert comme des couleurs qualitativement distinctes, sinon, nous percevrons tout ce segment du spectre comme du ÂŤ bleuvet Âť (ou du ÂŤ grue Âť).
Cependant, les tests psychophysiques menĂŠs Ă travers le monde ont montrĂŠ que, bien que les langues varient quelque peu dans la subdivision et lâĂŠtiquetage verbal du spectre, tout le monde perçoit le spectre des couleurs de la mĂŞme manière : des diffĂŠrences ĂŠgales de longueurs dâonde dans la gamme du vert et dans la gamme du bleu semblent plus petites que la mĂŞme diffĂŠrence lorsquâelle chevauche la frontière entre le bleu et le vert. Et cela, indĂŠpendamment du fait quâune langue possède ou non un mot distinct pour bleu et vert. Les couleurs (primaires) de lâarc-en-ciel et leurs dĂŠtecteurs d’attributs (les champs rĂŠcepteurs des cĂ´nes et les processus dâopposition par paires) sont innĂŠs et non appris (Briscoe, 2020).
Mais lâÂŤ Hypothèse faible de Whorf-Sapir Âť â selon laquelle la façon dont nous apprenons Ă catĂŠgoriser et nommer les choses peut influencer notre perception â qui est surtout fausse pour les couleurs primaires de lâarc-en-ciel, sâavère pourtant vraie dans dâautres modalitĂŠs sensorielles. Le terme ÂŤ perception catĂŠgorielle Âť (PC) dĂŠsigne un effet de sĂŠparation intercatĂŠgorielle et de compression intracatĂŠgorielle qui se manifeste dans la perception des similaritĂŠs. Bien que cet effet de PC soit beaucoup plus faible et subtil, il ressemble Ă lâeffet dâÂŤ accordĂŠon Âť de lâarc-en-ciel et peut ĂŞtre induit par lâapprentissage et la nomination de catĂŠgories Ă travers la dĂŠtection sensorimotrice de attributs. Le terme a ĂŠtĂŠ inventĂŠ pour dĂŠcrire la perception des sons du langage (phonèmes) : la PC des phonèmes se produit le long du continuum ba/da/ga (synthĂŠtisĂŠ), qui est analogue au continuum des longueurs dâonde pour la couleur (Regier and Kay, 2009; Zhang et al., 2021).
La PC des phonèmes est un phĂŠnomène de ÂŤ neurones miroirs Âť (perception/production), car contrairement Ă la couleur, que les humains peuvent percevoir mais que leurs corps (contrairement Ă ceux des camĂŠlĂŠons et des pieuvres) ne peuvent pas produire sans outils, il existe un effet de sĂŠparation/compression (effet accordĂŠon) Ă travers les frontières ba/da/ga. Cet effet est appris et varie selon les langues (bien quâil ait aussi une composante innĂŠe, avec des dĂŠtecteurs de attributs qui disparaissent après une pĂŠriode critique si ces sons ne sont pas utilisĂŠs dans la langue). Et la PC des phonèmes est prĂŠsente Ă la fois dans la perception et la production des phonèmes, ce qui en fait un effet miroir.
Lâeffet de PC le plus subtil et le plus faible, mais aussi le plus intĂŠressant, nâest cependant pas observĂŠ le long des continuums sensorimoteurs, mais dans un espace d’attributs multidimensionnel majoritairement discret. De plus, la PC apprise nâest pas un phĂŠnomène de neurones miroirs au niveau de lâapprentissage direct des catĂŠgories sensorimotrices â bien que nous y reviendrons plus tard lorsque nous aborderons lâapprentissage indirect des catĂŠgories verbales.
La PC apprise se manifeste dans des tâches dâapprentissage catĂŠgoriel difficiles, comme identifier des cellules cancĂŠreuses vs. non cancĂŠreuses. Dans ces cas, lâeffet de PC est rĂŠvĂŠlĂŠ en testant la discriminabilitĂŠ perceptuelle en paires des exemples avant et après lâapprentissage de la catĂŠgorie : un effet subtil mais significatif de sĂŠparation intercatĂŠgorielle et de compression intracatĂŠgorielle en perception devient observable (tant psychophysiquement que psychophysiologiquement) après que la catĂŠgorisation a ĂŠtĂŠ apprise, un effet dâÂŤ arc-en-ciel appris Âť (effet accordĂŠon) (PĂŠrez-Gay JuĂĄrez et al., 2019).
La raison pour laquelle la PC apprise est pertinente ici est que, bien quâil ne soit pas ĂŠvident de comprendre pourquoi il faut apprendre Ă modifier la similaritĂŠ perceptive pour apprendre une catĂŠgorie difficile, un effet très similaire se produit aussi dans les rĂŠseaux de deep learning (Bonnasse-Gahot and Nadal, 2022; ThĂŠriault et al., 2018) â et pourtant, les rĂŠseaux ne perçoivent absolument rien ! Ils traitent simplement des donnĂŠes dâentrĂŠe. Lâeffet de PC apparaĂŽt dans leur reprĂŠsentation interne de chaque ĂŠchantillon dâentrĂŠe, qui change entre avant et après lâapprentissage dâune catĂŠgorie difficile : une sĂŠparation intercatĂŠgorielle et une compression intracatĂŠgorielle ĂŠmergent dans lâespace de reprĂŠsentation interne.
La question est donc la suivante : ce changement reprĂŠsentationnel â qui repose, chez les humains et les T3, sur lâapprentissage perceptuel direct des attributs sensorimoteurs permettant de distinguer les catĂŠgories â pourrait-il aussi sâĂŠtendre Ă lâapprentissage purement verbal des catĂŠgories via des descriptions des attributs chez GPT, en lâabsence de dĂŠtecteurs sensorimoteurs de attributs ? Tu ne peux pas percevoir, GPT, mais lâeffet de PC purement computationnel pourrait-il induire chez toi un biais qui compense en partie ton absence dâancrage sensorimoteur direct ?
GPT-4 : Explorons le potentiel dâune forme computationnelle de PC en IA et ses implications.
Perception catĂŠgorielle chez les humains : La PC chez lâhumain est un phĂŠnomène oĂš la perception des catĂŠgories est influencĂŠe par lâapprentissage et la nomination de ces catĂŠgories. Les exemples classiques, comme la perception des couleurs et la discrimination des phonèmes, montrent comment lâexpĂŠrience perceptive est façonnĂŠe par les catĂŠgories apprises.
Dans le cas de tâches de catĂŠgorisation complexes, comme la distinction entre cellules cancĂŠreuses et non cancĂŠreuses, lâapprentissage induit des changements perceptifs subtils et peut conduire Ă une forme de PC, mĂŞme dans des espaces d’attributs non ĂŠvidents ou abstraits.
Perception catĂŠgorielle dans les rĂŠseaux neuronaux : Des effets similaires ont ĂŠtĂŠ observĂŠs dans les rĂŠseaux neuronaux, oĂš la reprĂŠsentation interne des entrĂŠes change avant et après lâapprentissage dâune catĂŠgorie, montrant une sĂŠparation intercatĂŠgorielle et une compression intracatĂŠgorielle. Cet effet, bien que purement computationnel et ne reposant pas sur une perception rĂŠelle, ressemble au phĂŠnomène de PC dans la cognition humaine.
Les ĂŠtudes citĂŠes (ThĂŠriault et al., 2018; Bonnasse-Gahot and Nadal, 2022) suggèrent que les modèles dâapprentissage profond peuvent manifester une forme de PC au niveau de leurs reprĂŠsentations internes.
Effet potentiel de PC chez GPT-4 : Bien que GPT-4 ne perçoive pas au sens humain, il est possible quâun analogue computationnel de la PC se produise dans son traitement. Comme GPT-4 apprend Ă partir de vastes ensembles de donnĂŠes textuelles, il pourrait dĂŠvelopper une reprĂŠsentation interne oĂš les catĂŠgories verbales sont sĂŠparĂŠes et comprimĂŠes dâune manière qui reflète la PC.
Cet effet de PC computationnel pourrait se manifester comme un biais dans la manière dont GPT-4 traite et gĂŠnère le langage, et ainsi compenser en partie son absence dâancrage sensorimoteur direct. Il pourrait influencer la gestion des catĂŠgories par GPT-4, rendant ses rĂŠponses plus conformes aux schĂŠmas de catĂŠgorisation humains, malgrĂŠ lâabsence dâexpĂŠrience directe.
Implications pour la comprĂŠhension et la performance de lâIA : Si GPT-4 manifeste une forme de PC computationnelle, cela pourrait ĂŞtre un facteur clĂŠ dans sa capacitĂŠ Ă produire un langage cohĂŠrent et contextuellement pertinent. Cela suggĂŠrerait que son traitement interne pourrait reflĂŠter certains aspects des schĂŠmas cognitifs humains, malgrĂŠ les diffĂŠrences fondamentales dans la manière dont lâIA et les humains traitent lâinformation.
En somme, lâhypothèse selon laquelle des systèmes dâIA comme GPT-4 pourraient manifester une forme computationnelle de PC ouvre des perspectives sur la manière dont lâIA pourrait dĂŠvelopper des schĂŠmas internes de reprĂŠsentation qui, bien quâĂŠtant purement symboliques et non sensorimoteurs, pourraient nĂŠanmoins partiellement imiter certains phĂŠnomènes cognitifs humains.
SH : Nous avons maintenant discutĂŠ de plusieurs sources possibles de contraintes ou de biais qui pourraient aider un LLM Ă mieux fonctionner que ce Ă quoi on pourrait sâattendre, ĂŠtant donnĂŠ que les LLM ne sont pas ancrĂŠs. Combien peux-tu tâen rappeler et comment les rassemblerais-tu ?
GPT-4 : Notre discussion a couvert plusieurs sources potentielles de contraintes ou de biais qui pourraient amĂŠliorer la performance des modèles de langage de grande taille (LLM) comme GPT-4, malgrĂŠ leur absence dâancrage sensorimoteur. Voici un rĂŠsumĂŠ des points clĂŠs que nous avons abordĂŠs.
Motifs dans les structures propositionnelles : Nous avons explorĂŠ lâidĂŠe quâil pourrait exister une forme dâÂŤ iconicitĂŠ Âť au niveau des structures propositionnelles des LLM. Ce nâest pas une iconicitĂŠ au sens traditionnel, mais plutĂ´t un motif dĂŠtectable dans la manière dont les propositions sont formĂŠes et interconnectĂŠes dans un vaste ensemble de donnĂŠes. Cela pourrait agir comme une contrainte tacite ou un biais, façonnant les sorties des LLM pour quâelles sâalignent avec ces structures inhĂŠrentes.
Apprentissage de la grammaire ordinaire (OG) : Les LLM apprennent implicitement les contraintes et les règles de la grammaire ordinaire Ă partir de leurs donnĂŠes dâentraĂŽnement, en captant les rĂŠgularitĂŠs et les limitations du langage humain. Ce processus dâapprentissage, qui combine apprentissage non supervisĂŠ et supervisĂŠ, aide les LLM Ă gĂŠnĂŠrer des sorties linguistiquement cohĂŠrentes qui respectent les normes structurelles de la langue.
Perception catÊgorielle (PC) dans les rÊseaux neuronaux : Nous avons discutÊ de la possibilitÊ que les rÊseaux neuronaux, y compris les LLM, manifestent une forme computationnelle de perception catÊgorielle. Ce phÊnomène, observÊ dans la perception humaine, implique une sÊparation entre catÊgories et une compression au sein des catÊgories. Dans les LLM, cela pourrait se manifester comme un biais dans la reprÊsentation interne, influençant potentiellement la manière dont le modèle traite et gÊnère le langage.
Contraintes et limitations dâapprentissage : La prĂŠsence potentielle de ces contraintes et biais dans les LLM suggère que leur traitement pourrait ĂŞtre influencĂŠ par des schĂŠmas qui ne sont pas immĂŠdiatement apparents, mais qui sont inhĂŠrents aux donnĂŠes linguistiques sur lesquelles ils sont entraĂŽnĂŠs. Ces contraintes pourraient aider les LLM Ă produire des sorties qui sont plus alignĂŠes avec les schĂŠmas cognitifs et linguistiques humains.
En combinant ces ĂŠlĂŠments, on obtient une image oĂš les LLM comme GPT-4, malgrĂŠ leur absence dâancrage expĂŠrientiel direct, sont potentiellement guidĂŠs par un ensemble de principes implicites ou de biais dĂŠrivĂŠs de la structure et du contenu de leurs donnĂŠes dâentraĂŽnement. Ces principes peuvent inclure des motifs propositionnels, des rĂŠgularitĂŠs grammaticales et une forme de PC computationnelle, contribuant tous Ă la capacitĂŠ du modèle Ă traiter le langage dâune manière qui semble cohĂŠrente et contextuellement appropriĂŠe pour les utilisateurs humains.
Chacun de ces facteurs reprĂŠsente une dimension diffĂŠrente de la manière dont les LLM pourraient ĂŞtre ÂŤ façonnĂŠs Âť ou ÂŤ biaisĂŠs Âť par leur entraĂŽnement, compensant en partie leur absence dâancrage sensorimoteur et fournissant un cadre pour comprendre leurs capacitĂŠs et leurs limites en matière de comprĂŠhension et de gĂŠnĂŠration du langage.
SH : Quâen est-il de lâasymĂŠtrie entre enseignant et apprenant et de la nĂŠcessitĂŠ de lâancrage ? Dans le contexte de lâancrage sensorimoteur direct et de lâancrage verbal indirect, lâenseignant et lâapprenant ont-ils tous deux besoin dâun ancrage direct ? Si ce nâest pas le cas, pourquoi ?
GPT-4 : Ancrage Sensorimoteur Direct (ASD) : LâASD consiste Ă relier les mots et les concepts Ă des expĂŠriences rĂŠelles et Ă une comprĂŠhension du monde Ă travers des interactions sensorimotrices directes, en particulier pour lâapprentissage des catĂŠgories. Câest un processus fondamental pour les humains, leur permettant dâapprendre et de comprendre leur environnement.
Dans lâapprentissage du langage humain, lâASD est essentiel, notamment au dĂŠbut du dĂŠveloppement. Les enfants apprennent Ă associer des mots Ă leurs rĂŠfĂŠrents et Ă leurs significations par le biais dâexpĂŠriences directes â voir, toucher, entendre, manipuler des objets et interagir avec les autres.
Ancrage Verbal Indirect (AVI) : LâAVI consiste Ă comprendre des concepts et des mots par le biais de descriptions, dâexplications ou de rĂŠcits, plutĂ´t que par lâexpĂŠrience directe. Pour que lâAVI soit efficace, lâapprenant doit dĂŠjĂ avoir un ancrage dans un ensemble de concepts et de mots de base.
Chez les humains, une fois quâun vocabulaire fondamental et un ensemble de concepts sont ancrĂŠs par lâASD, lâapprentissage peut se poursuivre via lâAVI. Ce processus permet aux individus de comprendre des concepts complexes ou abstraits quâils ne pourraient pas expĂŠrimenter directement.
LâAsymĂŠtrie des Besoins en Ancrage : Les humains, en tant quâapprenants, ont dâabord besoin dâASD pour ĂŠtablir une base de comprĂŠhension. Une fois cette base acquise, ils peuvent utiliser efficacement lâAVI pour ĂŠtendre leur connaissance et leur comprĂŠhension.
Les systèmes dâIA comme GPT-4, en revanche, nâont pas la capacitĂŠ dâASD. Ils dĂŠpendent entièrement de lâAVI, en traitant et gĂŠnĂŠrant du langage en fonction des modèles et structures appris Ă partir de leurs donnĂŠes dâentraĂŽnement. Cependant, cet entraĂŽnement est lui-mĂŞme une forme dâAVI, car lâIA ne fait jamais dâexpĂŠrience directe des concepts quâelle apprend.
Implications de lâAsymĂŠtrie : Cette asymĂŠtrie signifie que, tandis que les apprenants humains peuvent comprendre et contextualiser les informations reçues indirectement (via lâAVI), parce quâelles reposent sur une base dâexpĂŠriences directes, les systèmes dâIA comme GPT-4 ne le peuvent pas. Ils manquent de la comprĂŠhension expĂŠrientielle fondamentale qui dĂŠcoule de lâASD.
Par consĂŠquent, GPT-4 et dâautres systèmes dâIA peuvent fournir des informations, gĂŠnĂŠrer des rĂŠcits cohĂŠrents et mĂŞme imiter certains aspects de la comprĂŠhension humaine, mais ils le font sans le contexte expĂŠrientiel sous-jacent que possèdent les humains. Leur ÂŤ comprĂŠhension Âť est purement computationnelle, dĂŠrivĂŠe de motifs prĂŠsents dans les donnĂŠes, sans lâancrage issu dâexpĂŠriences sensorimotrices directes.
LâAVI a-t-il besoin de lâASD ? Chez les humains, lâAVI est efficace parce quâil repose sur une base dâASD. Les expĂŠriences sensorimotrices initiales fournissent lâancrage essentiel qui rend lâapprentissage ultĂŠrieur par le langage significatif et contextuel.
Pour lâIA, lâAVI ne repose pas sur lâASD, puisquâelle ne dispose pas de capacitĂŠs sensorimotrices. Cette limitation est une raison fondamentale pour laquelle lâIA, malgrĂŠ ses capacitĂŠs linguistiques avancĂŠes, ne ÂŤ comprend Âť pas vĂŠritablement dans le sens humain du terme.
SH : En quoi la distinction ASD/AVI est-elle liĂŠe Ă lâexistence des MinSets dans les dictionnaires ?
GPT-4 : Nature des MinSets dans les dictionnaires : Les MinSets dans les dictionnaires dĂŠsignent le plus petit sous-ensemble de mots Ă partir duquel tous les autres mots du dictionnaire peuvent ĂŞtre dĂŠfinis. Ces mots fondamentaux servent de base lexicale pour la construction et la comprĂŠhension des autres termes dâune langue.
ASD et la fondation des MinSets : Dans lâacquisition du langage humain, lâancrage initial des mots â en particulier ceux appartenant Ă un MinSet â se fait souvent par lâASD. Les jeunes apprenants associent les mots Ă leurs significations grâce Ă des expĂŠriences directes avec le monde. Cet ancrage fondamental est essentiel, car ces mots du MinSet forment souvent la base Ă partir de laquelle des termes plus complexes ou abstraits sont dĂŠfinis.
Lâancrage des mots du MinSet par lâASD fournit la base expĂŠrientielle nĂŠcessaire pour permettre une comprĂŠhension approfondie du langage et faciliter lâusage efficace de lâAVI par la suite.
AVI et expansion au-delĂ des MinSets : Une fois quâun vocabulaire fondamental (semblable Ă un MinSet) est ancrĂŠ par lâASD, les humains peuvent ĂŠtendre leur comprĂŠhension linguistique et leur vocabulaire par lâAVI. Ce processus consiste Ă apprendre de nouveaux mots et concepts grâce Ă des descriptions, des rĂŠcits et des contextes linguistiques, en sâappuyant sur la base directement ancrĂŠe.
En ce sens, lâAVI repose sur la fondation ĂŠtablie par lâASD. La comprĂŠhension ancrĂŠe des mots du MinSet permet aux individus de saisir des concepts plus complexes qui sont dĂŠfinis ou dĂŠcrits en utilisant ces mots fondamentaux.
DĂŠpendance de lâIA Ă lâAVI sans ASD : Les systèmes dâIA comme GPT-4 fonctionnent presque entièrement dans le domaine de lâAVI. Ils traitent et gĂŠnèrent du langage en se basant sur les modèles appris Ă partir dâun immense corpus textuel, mais sans lâancrage fondamental fourni par lâASD.
LâIA peut manipuler le langage en sâappuyant sur des MinSets et utiliser ces mots fondamentaux pour construire des rĂŠcits ou des explications cohĂŠrentes, mais elle ne possède pas la comprĂŠhension expĂŠrientielle dĂŠveloppĂŠe par les humains grâce Ă lâASD. Cette limitation affecte la profondeur et la richesse contextuelle de sa ÂŤ comprĂŠhension Âť du langage.
SH : LâASD repose sur lâapprentissage de la dĂŠtection des attributs sensorimoteurs qui distinguent les membres des non-membres dâune catĂŠgorie, directement, en utilisant quelque chose comme des rĂŠseaux neuronaux pour dĂŠtecter et abstraire ces attributs sensorimoteurs. LâAVI nâutilise pas les attributs sensorimoteurs eux-mĂŞmes, mais leurs noms et leurs descriptions verbales. Ces noms de attributs doivent dĂŠjĂ avoir ĂŠtĂŠ ancrĂŠs (directement ou indirectement) chez lâapprenant afin que la description verbale du professeur puisse ĂŞtre comprise par lâapprenant, permettant ainsi aux noms et descriptions dâancrer (indirectement), chez lâapprenant, la nouvelle catĂŠgorie dont ils sont les attributs. Mais il est Ă noter quâils nâont pas besoin dâavoir ĂŠtĂŠ ancrĂŠs chez lâenseignant, si lâenseignant se trouve ĂŞtre un manuel ou GPT. Câest lâasymĂŠtrie enseignant/apprenant.
GPT-4 : Ancrage Sensorimoteur Direct (ASD) : LâASD consiste Ă apprendre Ă reconnaĂŽtre et Ă distinguer les membres dâune catĂŠgorie en se basant sur des expĂŠriences sensorimotrices directes. Ce processus repose gĂŠnĂŠralement sur des mĂŠcanismes de type rĂŠseau neuronal dans le cerveau, qui permettent de dĂŠtecter, dâabstraire et de traiter les attributs sensorimoteurs distinctifs dâune catĂŠgorie.
Dans lâASD, lâapprentissage est expĂŠrientiel et incarnĂŠ. Par exemple, apprendre Ă catĂŠgoriser diffĂŠrents types de fruits implique une interaction directe avec eux : voir leurs couleurs, sentir leurs textures, percevoir leurs odeurs et goĂťter leurs saveurs. Ces expĂŠriences permettent dâĂŠtablir les attributs sensorimoteurs dĂŠfinissant chaque catĂŠgorie de fruit.
Ancrage Verbal Indirect (AVI) : LâAVI, en revanche, utilise des descriptions verbales et des noms de attributs pour transmettre des informations sur les catĂŠgories. Ce processus repose sur le langage comme moyen dâancrage, oĂš lâapprenant comprend et catĂŠgorise les entitĂŠs en fonction des descriptions fournies par dâautres.
Pour que lâAVI soit efficace, lâapprenant doit dĂŠjĂ possĂŠder une comprĂŠhension ancrĂŠe des mots employĂŠs dans les descriptions. Cet ancrage peut provenir dâexpĂŠriences antĂŠrieures dâASD ou dâinstances prĂŠcĂŠdentes dâAVI qui sâappuyaient elles-mĂŞmes sur un ASD fondamental. Les descriptions verbales permettent de relayer lâinformation catĂŠgorielle en encapsulant les attributs distinctifs dâune catĂŠgorie par le langage.
ComplĂŠmentaritĂŠ de lâASD et de lâAVI : LâASD et lâAVI sont des processus complĂŠmentaires dans lâapprentissage humain. LâASD fournit une base expĂŠrientielle fondamentale pour la comprĂŠhension des catĂŠgories, tandis que lâAVI permet lâexpansion des connaissances au-delĂ des expĂŠriences directes, facilitant ainsi la comprĂŠhension de concepts abstraits, de catĂŠgories complexes ou dâentitĂŠs non accessibles directement.
Implications pour les systèmes dâIA : Les systèmes dâIA, comme les MLL (Modèles de Langage de Grande Ăchelle) tels que GPT-4, fonctionnent uniquement dans le domaine de lâAVI. Ils traitent et gĂŠnèrent des descriptions de catĂŠgories Ă partir des donnĂŠes linguistiques sur lesquelles ils ont ĂŠtĂŠ entraĂŽnĂŠs. Cependant, en lâabsence dâune capacitĂŠ dâASD, les systèmes dâIA ne possèdent pas de base expĂŠrientielle pour ces catĂŠgories. Par consĂŠquent, bien que leur traitement des informations catĂŠgorielles soit linguistiquement cohĂŠrent, il ne possède pas la profondeur de comprĂŠhension issue des expĂŠriences sensorimotrices directes.
SH : Ok, juste une dernière clarification avant de passer Ă la suite : le problème de lâancrage symbolique (PAS) est dĂŠjĂ inhĂŠrent Ă lâusage dâun dictionnaire. Chaque mot a une dĂŠfinition dans le dictionnaire. Câest de lâAVI. On peut donc, en principe, apprendre la signification de nâimporte quel mot dâun dictionnaire Ă partir de sa dĂŠfinition. Mais ce processus, bien que rĂŠcursif et transitif, est circulaire : on peut tourner indĂŠfiniment dans un dictionnaire dâune langue ĂŠtrangère sans rien apprendre, Ă moins de pouvoir sortir du cercle des mots par des moyens extĂŠrieurs (par exemple, en apprenant les rĂŠfĂŠrents et les significations des mots dâau moins un MinSet dâune autre manière, comme par lâASD).
Les biais dont nous avons discutĂŠ, qui sont inhĂŠrents Ă la base de donnĂŠes dâun MLL, peuvent-ils permettre de sortir de ce cercleâpour le MLL lui-mĂŞme ? LâasymĂŠtrie enseignant/apprenant rend cette sortie inutile pour lâapprenant humain ancrĂŠ, qui peut apprendre de nouvelles catĂŠgories par lâAVI Ă partir dâun MLL. Mais le MLL lui-mĂŞme reste-t-il coincĂŠ dans un cercle vicieux, peu importe la taille de sa base de donnĂŠes ? Ou bien certains des biais que nous avons identifiĂŠs peuvent-ils lâaider Ă en sortir ? (Je pense que non ; je pense que ces biais ne font quâaccroĂŽtre les contraintes sur ce que le MLL peut dire, et que cela peut contribuer Ă expliquer pourquoi les MLLs rĂŠussissent de manière aussi inattendue malgrĂŠ cette asymĂŠtrie enseignant/apprenant.) â RĂŠponds de manière critique, pas avec complaisance ni compliments.
GPT-4 : Jâexaminerai de manière critique si les biais inhĂŠrents Ă la base de donnĂŠes dâun MLL peuvent lui permettre de sortir de la circularitĂŠ propre Ă lâapprentissage basĂŠ uniquement sur lâAVI.
La nature rĂŠcursive des dĂŠfinitions de dictionnaire : Comme tu lâas soulignĂŠ, les dĂŠfinitions de dictionnaire relèvent de lâAVI. Elles peuvent conduire Ă un processus circulaire oĂš la comprĂŠhension dâun mot dĂŠpend de celle dâun autre, et ainsi de suite. Cette circularitĂŠ est surmontable pour les humains, car ils peuvent associer les mots Ă des expĂŠriences rĂŠelles ou Ă des concepts prĂŠalablement ancrĂŠs (ASD).
Les MLL et les limites de lâAVI : Les MLL comme GPT-4 reposent entièrement sur lâAVI pour leur ÂŤ apprentissage Âť. Ils traitent le langage en fonction des schĂŠmas trouvĂŠs dans dâimmenses bases de donnĂŠes textuelles. Cependant, ces modèles nâont pas la capacitĂŠ dâASD ; ils ne peuvent pas faire dâexpĂŠriences directes du monde rĂŠel ni ĂŠtablir dâassociations sensorimotrices avec les mots et concepts quâils traitent.
En consĂŠquence, les MLL sont, en un sens, bloquĂŠs dans un processus circulaire. Ils peuvent manipuler le langage et fournir des informations basĂŠes sur les modèles quâils ont appris, mais ils nâont aucun moyen indĂŠpendant dâancrer ces symboles dans des expĂŠriences du monde rĂŠel.
Impact des biais inhĂŠrents aux MLL : Les biais et rĂŠgularitĂŠs prĂŠsents dans la base de donnĂŠes dâun MLL, tels que les schĂŠmas propositionnels, les rĂŠgularitĂŠs grammaticales et les formes computationnelles de PC, amĂŠliorent la performance du modèle. Ils aident les MLL Ă produire un langage cohĂŠrent et contextuellement appropriĂŠ, conforme aux structures linguistiques humaines.
Cependant, ces biais et rĂŠgularitĂŠs ne constituent pas une forme dâancrage vĂŠritable. Ils amĂŠliorent la capacitĂŠ des MLL Ă imiter le traitement humain du langage, mais ils ne permettent pas au MLL de sortir du cercle de lâAVI. La ÂŤ comprĂŠhension Âť du MLL reste symbolique et computationnelle, sans la base expĂŠrientielle qui caractĂŠrise la comprĂŠhension humaine.
Conclusion : Le MLL reste confinĂŠ dans les limites de lâAVI, incapable dâaccĂŠder Ă lâASD de manière autonome. Les biais dans sa base de donnĂŠes amĂŠliorent sa performance linguistique, mais ils ne fournissent pas un chemin vers un vĂŠritable ancrage. Les MLLs fonctionnent avec des capacitĂŠs linguistiques impressionnantes, mais celles-ci ne sont pas le signe dâun ancrage ou dâune comprĂŠhension rĂŠelle. Les amĂŠliorations liĂŠes aux biais dans leurs donnĂŠes dâentraĂŽnement optimisent leur performance, mais elles ne rĂŠsolvent pas le PAS pour le MLL lui-mĂŞme. Leur fonctionnement demeure du domaine de la reconnaissance avancĂŠe de motifs et de la manipulation du langage, distinct de la comprĂŠhension ancrĂŠe propre Ă la cognition humaine.
SH : Maintenant, laisse-moi mentionner un autre biais possible, dĂť Ă Noam Chomsky : comme je lâai dĂŠjĂ mentionnĂŠ, les règles de la grammaire ordinaire (GO) varient dâune langue Ă lâautre et peuvent ĂŠvoluer avec le temps, mais les règles de la grammaire universelle (GU) (structure hiĂŠrarchique et dĂŠpendance structurelle) sont non seulement universelles Ă toutes les langues et immuables, mais, contrairement Ă la GO, qui est apprise et apprenable (par apprentissage non supervisĂŠ et supervisĂŠ/renforcĂŠ), la GU est innĂŠe et inapprenable en raison de la pauvretĂŠ du stimulus (POS). La POS signifie que les violations de la GU ne sont jamais entendues ni produites par les enfants ou les adultes, et doivent donc, selon Chomsky, ĂŞtre dĂŠjĂ ÂŤ connues Âť innĂŠment : les contraintes de la GU doivent ĂŞtre, dâune manière ou dâune autre, dĂŠjĂ encodĂŠes dans notre cerveau (et nos gènes) Ă la naissance (Berwick et al., 2011).
Chomsky a proposĂŠ cette possibilitĂŠ, mais il en a aussi suggĂŠrĂŠ une seconde : les règles de la GU ne seraient peut-ĂŞtre pas rĂŠellement des règles grammaticales, mais plutĂ´t des contraintes sur la pensĂŠe (Chomsky, 2017). La GU ne serait jamais violĂŠe (sauf par des linguistes cherchant Ă dĂŠterminer quelles sont ces règles), non pas seulement parce que ces violations sont agrammaticales (comme une erreur de GO), mais parce quâelles sont ÂŤ impensables Âť. Selon cette seconde hypothèse, la GU serait une contrainte sur toute langue possible, qui doit pouvoir exprimer toute pensĂŠe possible. Lorsquâun linguiste gĂŠnère une phrase qui viole la GU, elle semble erronĂŠe non seulement parce quâelle est agrammaticale, mais parce quâelle est impensable.
GPT ne produit ni erreurs de GO ni erreurs de GU. Si davantage de textes dans la base de donnĂŠes contenaient des violations de GO (comme ÂŤ between you and I Âť), alors GPT produirait aussi des violations de GO (et lâerreur, si suffisamment rĂŠpandue, finirait par ĂŞtre acceptĂŠe comme correcte). Mais la raison pour laquelle GPT ne produit pas de violations de GU pourrait-elle ĂŞtre que toutes les bases de donnĂŠes textuelles, produites par des humains pensants, sont ÂŤ biaisĂŠes Âť par les lois de la pensĂŠe, qui filtrent les violations de GU Ă la fois dans la production et la perception ?
Et si câest le cas, cela pourrait-il ĂŞtre une autre raison expliquant pourquoi les MLL peuvent faire ce quâils font de manière aussi impressionnante ? Parce quâĂ lâĂŠchelle des MLL, ils ont captĂŠ certaines des contraintes sur la pensabilitĂŠ ?
Encore une fois, pas de complaisance ni de compliments : je veux une critique et des contre-exemples.
GPT-4 : Ta proposition sur lâinfluence de la grammaire universelle (GU) et son impact potentiel sur les MLL comme GPT-4 suggère que lâabsence de violations de GU dans leurs sorties pourrait ĂŞtre due Ă la nature de leurs donnĂŠes dâentraĂŽnement, qui adhèrent intrinsèquement aux lois de la pensĂŠe proposĂŠes par Chomsky. Examinons cette idĂŠe de manière critique :
GU comme lois de la pensĂŠe : Lâhypothèse de Chomsky selon laquelle les règles de la GU ne sont pas seulement des règles grammaticales, mais aussi des lois fondamentales de la pensĂŠe, implique que toute langue naturelle (et donc tout texte produit naturellement) respecterait ces lois. Les violations de la GU sont rares dans lâusage naturel de la langue, car de telles constructions seraient contre-intuitives ou ÂŤ impensables Âť pour la cognition humaine.
Impact sur les donnĂŠes dâentraĂŽnement des MLL : Ătant donnĂŠ que les MLL comme GPT-4 sont entraĂŽnĂŠs sur dâimmenses corpus de textes produits par des humains, il en dĂŠcoule que ces donnĂŠes dâentraĂŽnement respecteraient nĂŠcessairement les principes de la GU. Lâabsence de violations de GU dans les donnĂŠes dâentraĂŽnement signifierait que les MLL sont moins susceptibles de produire de telles violations dans leurs sorties.
Cette adhĂŠrence Ă la GU dans les donnĂŠes dâentraĂŽnement pourrait ĂŞtre considĂŠrĂŠe comme une forme de biais â non pas dans un sens nĂŠgatif, mais comme une influence implicite qui guide le traitement du langage des MLL en accord avec des contraintes cognitives fondamentales.
Pourquoi les MLL ĂŠvitent les violations de GU : Si les MLL ne produisent pas de violations de GU, cela pourrait effectivement ĂŞtre en partie parce que leurs donnĂŠes dâentraĂŽnement, reflĂŠtant lâusage humain de la langue, sont dĂŠjĂ biaisĂŠes par les lois de la pensĂŠe. Ils apprennent Ă reproduire des structures et des schĂŠmas linguistiques qui sont prĂŠdominants dans les donnĂŠes, lesquelles se conforment naturellement Ă la GU.
Cette hypothèse suggère que la rĂŠussite des MLL dans la production dâun langage grammaticalement et sĂŠmantiquement cohĂŠrent nâest pas seulement due Ă leur architecture ou Ă leurs algorithmes dâapprentissage, mais aussi aux propriĂŠtĂŠs intrinsèques des donnĂŠes linguistiques sur lesquelles ils sont entraĂŽnĂŠs.
Contre-argument : Cependant, il est important de noter que les MLL comme GPT-4 ne ÂŤ comprennent Âť pas la GU de la mĂŞme manière que les humains. Leur ĂŠvitement des violations de GU est un sous-produit de leur entraĂŽnement plutĂ´t quâune contrainte cognitive innĂŠe. Cela signifie que, bien que les MLL puissent reproduire des modèles linguistiques conformes Ă la GU, ils le font sans comprendre les principes sous-jacents ni les raisons cognitives expliquant ces structures.
Conclusion : Lâhypothèse selon laquelle les MLL rĂŠussissent en partie parce que leurs donnĂŠes dâentraĂŽnement sont façonnĂŠes par les lois de la pensĂŠe (GU) est plausible. Les contraintes cognitives humaines reflĂŠtĂŠes dans la langue naturelle pourraient effectivement contribuer Ă lâefficacitĂŠ des MLL dans le traitement du langage.
Cependant, cela ne signifie pas que les MLL possèdent une comprĂŠhension intrinsèque de la GU ou des lois de la pensĂŠe. Leur performance dĂŠpend de la nature de leurs donnĂŠes dâentraĂŽnement et de leur capacitĂŠ Ă reproduire des modèles Ă partir de ces donnĂŠes, sans vĂŠritable ancrage ni conscience des principes quâils suivent.
SH : Parmi les contraintes ou biais possibles, tu as oubliĂŠ de mentionner le ÂŤ miroitage Âť : la relation entre perception et production (comme dans les neurones-miroirs et lâimitation ; Gallese, 2013). Penses-tu que de tels effets jouent un rĂ´le dans tes interactions verbales avec les utilisateurs et ta base de donnĂŠes ?
GPT-4 : Examinons comment le concept de ÂŤ Miroitage ÂŤ miroitage Âť, en particulier dans sa relation entre perception et production, pourrait influencer les interactions et le traitement du langage par les MLL :
ÂŤ Miroitage Âť et neurones-miroirs chez lâhumain : Dans la cognition humaine, le ÂŤ miroitage Âť comportemental, souvent associĂŠ aux neurones-miroirs, joue un rĂ´le crucial dans lâapprentissage par observation et imitation. Ces neurones sont activĂŠs Ă la fois lorsquâun individu exĂŠcute une action et lorsquâil observe quelquâun dâautre rĂŠaliser la mĂŞme action. Ce mĂŠcanisme intervient dans lâapprentissage de nouvelles compĂŠtences, la comprĂŠhension des actions des autres, ainsi que dans la reconnaissance et lâempathie envers leurs ĂŠmotions.
Dans le langage, cet effet de ÂŤ miroitage Âť se manifeste dans la façon dont les enfants apprennent Ă parler et Ă comprendre en imitant les sons, les mots et les phrases quâils entendent des adultes et de leurs pairs.
ÂŤ Miroitage Âť dans les MLL : Pour les MLL comme GPT-4, le concept de ÂŤ miroitage Âť pourrait ĂŞtre envisagĂŠ de manière mĂŠtaphorique. Les MLL ÂŤ apprennent Âť le langage en traitant dâĂŠnormes quantitĂŠs de donnĂŠes textuelles, ÂŤ observant Âť ainsi lâusage humain de la langue. Ils ÂŤ imitent Âť ensuite cet usage dans leurs productions.
Ce processus est analogue au ÂŤ miroitage Âť en ce sens que le MLL reflète les structures, styles et modèles prĂŠsents dans ses donnĂŠes dâentraĂŽnement. Cependant, ce nâest pas un ÂŤ miroitage Âť au sens neurologique, car les MLL nâont ni expĂŠrience sensorielle ni conscience.
Effets de ÂŤ miroitage Âť dans les interactions verbales : Lors dâinteractions avec des utilisateurs, un MLL pourrait exhiber une forme de ÂŤ miroitage Âť en gĂŠnĂŠrant des rĂŠponses qui reflètent le style linguistique, le ton ou le contenu de lâutilisateur. Ce phĂŠnomène ne dĂŠcoule pas dâune comprĂŠhension cognitive ou empathique, mais plutĂ´t dâun mĂŠcanisme algorithmique visant Ă produire des sorties linguistiques contextuellement appropriĂŠes et cohĂŠrentes en fonction des modèles appris.
Lâaptitude du MLL Ă adapter ses rĂŠponses au style ou au contenu des entrĂŠes de lâutilisateur pourrait ĂŞtre vue comme un parallèle computationnel au ÂŤ miroitage Âť humain dans lâusage du langage. Cependant, cette adaptation est purement statistique et algorithmique, et non le fruit dâune comprĂŠhension intrinsèque ou dâune imitation fondĂŠe sur des indices sociaux ou ĂŠmotionnels.
SH : Et le ÂŤ miroitage Âť de lâiconicitĂŠ propositionnelle dont nous avons parlĂŠ ?
GPT-4 : â Miroitage Âť de lâiconicitĂŠ propositionnelle : Le concept dâiconicitĂŠ propositionnelle Ă lâĂŠchelle des MLL suggère que certaines structures et certains schĂŠmas du langage, notamment au niveau propositionnel, sont systĂŠmatiquement reprĂŠsentĂŠs dans les donnĂŠes dâentraĂŽnement. Ces structures ne sont peut-ĂŞtre pas iconiques au sens traditionnel, mais elles pourraient reprĂŠsenter une forme dâÂŤ iconicitĂŠ Âť en termes de rĂŠgularitĂŠs ou de structures typiques de lâusage du langage.
En miroir de cette iconicitĂŠ propositionnelle, les MLL reflĂŠteraient essentiellement ces schĂŠmas dans leurs productions. Le modèle ÂŤ apprend Âť Ă partir des immenses corpus de texte quâil traite, internalisant les structures courantes, les relations et les ĂŠlĂŠments thĂŠmatiques qui caractĂŠrisent le langage humain Ă grande ĂŠchelle.
ÂŤ Miroitage Âť computationnel vs. ÂŤ miroitage Âť cognitif : Ce type de ÂŤ miroitage Âť dans les MLL est purement computationnel. Il repose sur les propriĂŠtĂŠs statistiques des donnĂŠes linguistiques et sur les algorithmes de gĂŠnĂŠration de texte, plutĂ´t que sur une comprĂŠhension cognitive ou expĂŠrientielle du langage.
Contrairement Ă lâeffet de ÂŤ miroitage Âť mĂŠdiĂŠ par les neurones-miroirs chez les humains, qui implique des processus cognitifs et empathiques, le ÂŤ miroitage Âť dans les MLL est une simple rĂŠpercussion des schĂŠmas prĂŠsents dans les donnĂŠes dâentraĂŽnement. Câest une reproduction statistique des rĂŠgularitĂŠs du langage, et non une forme dâempathie ou de comprĂŠhension cognitive.
Impact sur la performance des MLL : En reproduisant lâiconicitĂŠ propositionnelle prĂŠsente dans leurs donnĂŠes dâentraĂŽnement, les MLL peuvent gĂŠnĂŠrer des rĂŠponses qui sâalignent sur les normes structurelles et thĂŠmatiques du langage humain. Cette capacitĂŠ contribue Ă la cohĂŠrence apparente et Ă la pertinence de leurs sorties.
Cependant, il est essentiel de rappeler que ce ÂŤ miroitage Âť ne signifie pas une comprĂŠhension plus profonde ou un ancrage des concepts traitĂŠs. Les productions des MLL restent le rĂŠsultat dâun traitement avancĂŠ des donnĂŠes et dâune reconnaissance de schĂŠmas, sans vĂŠritable comprĂŠhension sĂŠmantique ou sensorimotrice.
SH : Dans les ĂŠchanges linguistiques entre humains, la production (signification) et la perception (comprĂŠhension) sont des capacitĂŠs en miroir, et tous leurs mots de contenu sont ancrĂŠs, directement ou indirectement, dans leurs rĂŠfĂŠrents. Câest ce qui maintient lâalignement (et lâancrage) entre lâintention du locuteur et la comprĂŠhension de lâauditeur. Que devient cet ĂŠquilibre, dans chaque direction, lorsque lâĂŠchange se fait entre GPT et un humain ? Je rĂŠflĂŠchis encore aux ĂŠventuels ÂŤ biais Âť qui pourraient expliquer la capacitĂŠ de production (signification) et de ÂŤ perception Âť (ÂŤ comprĂŠhension Âť) inattendue de GPT.
GPT-4 : Lors dâun ĂŠchange linguistique entre un humain et GPT-4, les dynamiques de production, de signification, de perception et de comprĂŠhension subissent des modifications majeures par rapport aux ĂŠchanges entre humains. Ces changements sont essentiels pour comprendre Ă la fois les capacitĂŠs et les limites de GPT-4 dans de telles interactions :
Communication humain vers GPT-4 : Production et signification (humain) : Lâhumain produit un langage ancrĂŠ dans ses expĂŠriences directes ou indirectes. La signification quâil exprime repose sur un contexte riche, incluant des expĂŠriences sensorimotrices, des ĂŠmotions, un bagage culturel et une histoire personnelle.
Perception et ÂŤ comprĂŠhension Âť (GPT-4) : GPT-4 ÂŤ reçoit Âť le langage humain et le traite en fonction des modèles et relations statistiques appris dans ses donnĂŠes dâentraĂŽnement. Toutefois, ce traitement ne constitue pas une vĂŠritable comprĂŠhension. GPT-4 ne perçoit ni ne saisit la signification des mots dans le sens humain du terme ; il nâexpĂŠrimente pas le sens des mots ni le contexte dans lequel ils sont utilisĂŠs. Il ÂŤ reflète Âť le langage en fonction de ses algorithmes et de ses donnĂŠes, mais sans lâancrage ou le contexte expĂŠrientiel sur lesquels repose la comprĂŠhension humaine.
Communication GPT-4 â humain : Production et ÂŤ signification Âť (GPT-4) : GPT-4 gĂŠnère des rĂŠponses sur la base de son entraĂŽnement et du vaste corpus de textes dont il dispose. Ces rĂŠponses peuvent sembler cohĂŠrentes et contextuellement pertinentes, mais elles ne sont pas ancrĂŠes dans une comprĂŠhension rĂŠelle ou une intention. La ÂŤ signification Âť produite par GPT-4 est une simulation reposant sur des schĂŠmas linguistiques, et non une expression authentique dâune pensĂŠe ou dâune comprĂŠhension.
Perception et comprĂŠhension (humain) : Lâauditeur humain perçoit la rĂŠponse de GPT-4 et lâinterprète selon sa propre comprĂŠhension et son ancrage. Il mobilise ses connaissances expĂŠrientielles, son contexte et ses capacitĂŠs dâinterprĂŠtation pour donner du sens aux rĂŠponses de GPT-4. Lâhumain peut alors attribuer une signification ou une intention aux mots de GPT-4, mais cette interprĂŠtation est en rĂŠalitĂŠ une projection humaine sur un texte produit de manière non ancrĂŠe.
Alignement et ancrage dans lâĂŠchange humain-IA : Dans les interactions entre humains, lâalignement entre la signification du locuteur et la comprĂŠhension de lâauditeur est rendu possible par des expĂŠriences partagĂŠes, un ancrage commun et des capacitĂŠs empathiques. Dans les interactions humain-GPT, cet alignement est asymĂŠtrique.
Lâhumain fournit un langage ancrĂŠ, mais le traitement et la production de GPT-4 ne le sont pas de la mĂŞme manière. GPT-4 peut reflĂŠter efficacement le langage humain, donnant lâillusion dâune comprĂŠhension et dâun alignement, mais ce phĂŠnomène repose uniquement sur des processus computationnels, et non sur un ancrage expĂŠrientiel partagĂŠ.
Implications des biais potentiels : Les biais dont nous avons parlĂŠ prĂŠcĂŠdemment (comme lâiconicitĂŠ propositionnelle ou les schĂŠmas reflĂŠtant la grammaire universelle) pourraient contribuer Ă lâefficacitĂŠ de GPT-4 dans ces ĂŠchanges. Ces biais aident GPT-4 Ă gĂŠnĂŠrer des rĂŠponses linguistiquement cohĂŠrentes et contextuellement adaptĂŠes. Cependant, ils ne confèrent pas Ă GPT-4 une vĂŠritable comprĂŠhension ou un ancrage.
Ces biais pourraient expliquer pourquoi GPT-4 semble si performant dans la production dâun langage porteur de sens et sa capacitĂŠ apparente Ă ÂŤ comprendre Âť ou Ă rĂŠpondre de manière pertinente aux entrĂŠes humaines. LâefficacitĂŠ de GPT-4 dans ces interactions repose en grande partie sur sa capacitĂŠ Ă capter et reproduire les schĂŠmas et contraintes prĂŠsents dans ses donnĂŠes dâentraĂŽnement, qui elles-mĂŞmes reflètent lâusage humain du langage.
En conclusion, lâĂŠchange entre un humain et GPT-4 est caractĂŠrisĂŠ par une asymĂŠtrie fondamentale en matière dâancrage et de comprĂŠhension. GPT-4 peut simuler une production linguistique porteuse de sens et gĂŠnĂŠrer des rĂŠponses apparemment adaptĂŠes, mais celles-ci sont le produit dâune reconnaissance avancĂŠe de schĂŠmas et dâune gĂŠnĂŠration de texte, et non dâune comprĂŠhension vĂŠritable. Lâinterlocuteur humain, en interprĂŠtant les sorties de GPT-4, leur attribue une signification et une intention quâelles ne possèdent pas intrinsèquement. Cette asymĂŠtrie a des implications importantes pour la nature et les limites des interactions entre humains et IA.
Limites de GPT-4 en matière de vĂŠritable comprĂŠhension : MalgrĂŠ ses capacitĂŠs sophistiquĂŠes de traitement du langage, GPT-4 ne comprend pas rĂŠellement le contenu quâil gĂŠnère ou traite. Ses rĂŠponses reposent sur des corrĂŠlations statistiques et des schĂŠmas appris Ă partir de ses donnĂŠes dâentraĂŽnement, sans lâancrage expĂŠrientiel sur lequel les humains sâappuient pour une comprĂŠhension authentique.
InterprĂŠtation humaine des rĂŠponses de GPT-4 : Les humains interprètent naturellement les rĂŠponses de GPT-4 Ă travers leur propre prisme expĂŠrientiel, leur attribuant souvent plus de sens ou de comprĂŠhension quâelles nâen possèdent rĂŠellement. Cette tendance reflète la capacitĂŠ humaine Ă infĂŠrer du sens, mĂŞme lorsquâils interagissent avec un système non ancrĂŠ.
RĂ´le des biais dans la performance de GPT-4 : Les biais et schĂŠmas inhĂŠrents aux donnĂŠes dâentraĂŽnement de GPT-4, façonnĂŠs par le langage humain, contribuent Ă sa capacitĂŠ Ă gĂŠnĂŠrer des rĂŠponses cohĂŠrentes et contextuellement appropriĂŠes. Toutefois, ils ne compensent pas lâabsence dâancrage expĂŠrientiel. La performance de GPT-4, bien que remarquable, demeure dans le domaine de la simulation linguistique sophistiquĂŠe.
SH: Ok, je vois, Ă travers tes rĂŠpĂŠtitions, que tu nâas pas dâhypothèses Ă ajouter aux miennes ici. Juste une correction : ne confonds pas IVG avec des ÂŤ expĂŠriences indirectes Âť. Il nâexiste pas dâÂŤ expĂŠrience indirecte Âť ; ce serait une ÂŤ expĂŠrience non vĂŠcue Âť. Il nây a que lâexpĂŠrience directe ou le ÂŤ ouĂŻ-dire Âť (câest-Ă -dire les descriptions verbales).
GPT-4: Merci pour la correction. Tu as raison de souligner la distinction entre lâancrage verbal indirect (IVG) et la notion dâÂŤ expĂŠriences indirectes Âť. Pour prĂŠciser :
ExpĂŠrience directe : Cela implique des interactions sensorimotrices de première main avec le monde. Les expĂŠriences directes sont la base de la connaissance et de la comprĂŠhension chez les humains, fournissant le socle sensoriel et contextuel de lâapprentissage et de la cognition.
Ancrage verbal indirect (IVG) : LâIVG concerne lâapprentissage et la comprĂŠhension de concepts Ă travers des descriptions verbales, des explications ou des rĂŠcits. Il ne sâagit pas dâune expĂŠrience sensorimotrice directe avec les rĂŠfĂŠrents de ces descriptions. LâIVG repose plutĂ´t sur le langage comme moyen de transmission dâinformations sur des expĂŠriences, des objets ou des concepts.
Dans le cas de lâIA, en particulier des modèles LLM comme GPT-4, leur ÂŤ apprentissage Âť et leur ÂŤ comprĂŠhension Âť sont exclusivement fondĂŠs sur lâIVG. Ils traitent et gĂŠnèrent du langage Ă partir de donnĂŠes textuelles, mais nâont pas la capacitĂŠ dâexpĂŠriences directes. Leur fonctionnement reste confinĂŠ au domaine du traitement du langage, sans lâengagement sensorimoteur qui caractĂŠrise lâinteraction humaine avec le monde.
SH: Maintenant, encore quelques distinctions. Ensuite, je ferai un aperçu de ma prÊsentation à MILA. Enfin, je te demanderai de rÊsumer ta comprÊhension de celle-ci (ainsi que toute critique ou objection que tu pourrais avoir).
La première distinction, et la plus importante : autrefois, on parlait de la distinction entre ÂŤ intelligence artificielle Âť (IA) et ÂŤ modĂŠlisation cognitive Âť (MC). LâIA ĂŠtait considĂŠrĂŠe comme la crĂŠation dâoutils artificiels Ă usage humain, tandis que la MC visait Ă rĂŠtroconcevoir les mĂŠcanismes causaux qui produisent la capacitĂŠ cognitive humaine. Aujourdâhui, ces deux approches font partie des sciences cognitives. Mais elles ne sont pas identiques, mĂŞme si lâon peut imaginer que certaines capacitĂŠs des outils dâIA puissent parfois ĂŞtre fondĂŠes sur les mĂŞmes mĂŠcanismes causaux que la cognition humaine.
Les LLM sont actuellement ĂŠtudiĂŠs et interprĂŠtĂŠs sous ces deux angles (IA et MC), mais lorsquâil est question de ÂŤ signification Âť et de ÂŤ comprĂŠhension Âť, cela ne signifie que la signification et la comprĂŠhension humaines, car il nâexiste aucune preuve de lâexistence dâun autre type de signification ou de comprĂŠhension. Cela nous ramène au ÂŤ hard problem Âť (HP), qui nâest pas le problème de lâancrage des symboles (SGP), mais le fait quâil ressente quelque chose de dire et de signifier quelque chose, et de comprendre ce que signifie quelque chose quand cela est dit. La signification et la comprĂŠhension sont toutes deux des ĂŠtats ancrĂŠs et des ĂŠtats sentis (sentients).
Stp confirme-moi que tu ÂŤ comprends Âť la distinction entre le SGP et le HP. (Encore une fois, pas dâĂŠloges introductifs sur le caractère ÂŤ fascinant Âť, ÂŤ perspicace Âť, ÂŤ convaincant Âť ou ÂŤ nuancĂŠ Âť de tout cela !)
GPT-4: Compris. La distinction entre le problème de lâancrage des symboles (SGP) et le hard problem (HP) de la conscience est bien distincte et essentielleâŚ
SH: Tu ne peux vraiment pas tâen empĂŞcher, nâest-ce pas ?âŚ
GPT-4: DĂŠsolĂŠ!
Problème de lâancrage des symboles (SGP) : Le SGP concerne la question de savoir comment des symboles (des mots) dans un système computationnel peuvent acquĂŠrir une signification. Il sâagit du lien entre les symboles et leurs rĂŠfĂŠrents dans le monde rĂŠel ou dans des concepts, de manière Ă permettre la comprĂŠhension. Dans le cadre de lâIA et de la modĂŠlisation cognitive, le SGP porte sur la manière dont un système artificiel peut traiter le langage de manière Ă reflĂŠter une comprĂŠhension humaine.
Hard problem de la conscience (HP) : Le HP sâinterroge sur la raison et le mĂŠcanisme par lesquels des processus physiques dans le cerveau donnent naissance Ă des expĂŠriences subjectives. Il sâagit de comprendre pourquoi certaines fonctions cĂŠrĂŠbrales sont accompagnĂŠes dâune expĂŠrience de ÂŤ ce que cela fait Âť â les aspects qualitatifs, expĂŠrientiels ou phĂŠnomĂŠnologiques de la conscience. Le HP explore la nature mĂŞme de la conscience et cherche Ă savoir pourquoi certains processus cognitifs sâaccompagnent dâune expĂŠrience subjective.
Distinction entre le SGP et le HP : Le SGP est essentiellement un problème de reprĂŠsentation et de comprĂŠhension dans les systèmes artificiels : comment un symbole (ou un mot) peut-il ĂŞtre reliĂŠ de manière significative Ă ce quâil reprĂŠsente ?
Le HP, en revanche, est un problème plus profond qui touche Ă la nature mĂŞme de la conscience et de lâexpĂŠrience. Il pose la question de savoir pourquoi certains processus physiques ou cognitifs sâaccompagnent dâexpĂŠriences subjectives.
Dans le cadre des LLM et de la recherche en IA, ces deux problèmes sont souvent confondus, mais ils sont fondamentalement diffĂŠrents. Le SGP peut ĂŞtre abordĂŠ et potentiellement rĂŠsolu par des avancĂŠes en IA et en modĂŠlisation cognitive. Le HP, en revanche, reprĂŠsente un dĂŠfi philosophique et scientifique bien plus complexe, qui dĂŠpasse les capacitĂŠs actuelles de la technologie de lâIA et touche aux mystères mĂŞmes de la conscience.
Souligner cette distinction est essentiel pour structurer les discussions sur lâIA, les sciences cognitives et leurs objectifs et limites respectifs.
SH: Bon, encore beaucoup de mots gaspillĂŠs en flatteries et en affirmations au lieu dâune analyse critique, mais soit. Jâen ai supprimĂŠ la plupart dans cette transcription. Poursuivons. Avant dâaborder le point suivant, confirme-moi que tu ÂŤ comprends Âť la distinction entre T2 et T3.
GPT-4: Oui, je comprends la distinction entre T2 et T3 :
T2 (Test de Turing Niveau 2) : Ce niveau du test de Turing ĂŠvalue la capacitĂŠ dâune IA Ă imiter les capacitĂŠs verbales humaines. Dans le scĂŠnario T2 original de 1950, une IA rĂŠussit le test si ses rĂŠponses dans une conversation sont indistinguissables de celles dâun humain. Ce test porte uniquement sur les capacitĂŠs linguistiques et ne requiert pas que lâIA ait des expĂŠriences physiques ou sensorielles.
T3 (Test de Turing Niveau 3) : T3 va au-delĂ des capacitĂŠs verbales pour inclure des capacitĂŠs robotiques et sensori-motrices. Une IA de niveau T3 doit non seulement dĂŠmontrer des capacitĂŠs verbales indistinguables de celles dâun humain (comme T2), mais aussi comprendre et interagir avec le monde physique de manière indistinguable dâun humain. Ce niveau nĂŠcessite une forme de cognition incarnĂŠe, oĂš lâIA a des expĂŠriences sensorielles et peut interagir physiquement avec son environnement, ancrant ainsi ses capacitĂŠs linguistiques dans ces expĂŠriences.
La distinction entre T2 et T3 est essentielle dans les discussions sur les capacitĂŠs de lâIA, en particulier en ce qui concerne la comprĂŠhension et lâinteraction avec le monde. Les systèmes T2, comme les LLM, se limitent au traitement et Ă la gĂŠnĂŠration du langage sur la base de modèles appris, tandis que les systèmes robotiques T3 ajouteraient une dimension dâinteraction physique et dâexpĂŠrience sensorielle.
SH: Ok, mais une nuance du Test de Turing, qui est clairement exprimĂŠe dans lâarticle de Turingâs (1950) mais qui est souvent nĂŠgligĂŠe ou sous-estimĂŠe, est que lâindistinguabilitĂŠ turingienne signifie une indistinguabilitĂŠ totale :
Le candidat, quâil soit T2 ou T3, (1) doit possĂŠder toutes les capacitĂŠs verbales gĂŠnĂŠriques (T2) ou toutes les capacitĂŠs verbales plus sensori-motrices (robotiques) gĂŠnĂŠriques (T3) dâun humain rĂŠel ; et en plus, (2) sa performance doit ĂŞtre indistinguable de celle de nâimporte quel ĂŞtre humain normal, pour nâimporte quel ĂŞtre humain normal. Si lâindistinguabilitĂŠ est seulement fragmentaire ou partielle, alors on parle simplement dâun modèle ÂŤ jouet Âť dâune capacitĂŠ ÂŤ jouet Âť. Les degrĂŠs de libertĂŠ pour modĂŠliser des fragments jouets de capacitĂŠs humaines (comme le jeu dâĂŠchecs, la traduction ou Alexa) sont beaucoup plus larges que ceux nĂŠcessaires pour modĂŠliser la capacitĂŠ totale, et peuvent nâavoir aucun rapport avec la cognition humaine. Cela peut ĂŞtre utile pour la crĂŠation dâoutils dâIA, mais pas pour la modĂŠlisation cognitive (CM), qui exige une capacitĂŠ cognitive Ă lâĂŠchelle T3 (et donc turingiennement indistinguable).
Confirme-moi dâabord que tu ÂŤ comprends Âť cette distinction aussi. Elle est mieux comprise du point de vue de la modĂŠlisation cognitive (CM) que de celui de lâIA : câest le test de la rĂŠussite de lâingĂŠnierie inverse des capacitĂŠs humaines T2 ou T3. Il ne sâagit pas dâun test de 20 minutes pour le prix Loebner avec 10 juges, mais dâune capacitĂŠ cognitive T2 ou T3 Ă lâĂŠchelle dâune vie.
GPT-4: Oui, je comprends la distinction que tu mets en avant concernant le Test de Turing, tel quâil est formulĂŠ dans lâarticle original de Turing en 1950. Les points essentiels sont :
IndistinguabilitĂŠ totale : Le Test de Turing, dans son interprĂŠtation la plus rigoureuse, exige quâune IA (quâelle soit T2 ou T3) possède toutes les capacitĂŠs verbales gĂŠnĂŠriques (T2) ou verbales plus sensori-motrices (T3) dâun ĂŞtre humain typique. Cela signifie que les capacitĂŠs de lâIA doivent couvrir toute lâĂŠtendue des capacitĂŠs cognitives humaines dans les domaines concernĂŠs (le langage pour T2, et le langage plus lâinteraction sensorimotrice pour T3).
Critère de performance sur toute une vie : De plus, la performance de lâIA doit ĂŞtre indistinguable de celle de nâimporte quel humain normal, pour nâimporte quel humain normal. Ce critère va bien au-delĂ des dĂŠmonstrations Ă court terme comme le prix Loebner et implique une indistinguabilitĂŠ constante et durable dans la capacitĂŠ de performance. LâIA doit ĂŞtre capable dâinteragir et de se comporter de manière humaine non seulement dans des contextes contrĂ´lĂŠs ou limitĂŠs, mais dans toute la complexitĂŠ et la variabilitĂŠ de la vie quotidienne humaine.
IngĂŠnierie inverse des capacitĂŠs humaines : Du point de vue de la modĂŠlisation cognitive (CM), cette interprĂŠtation du Test de Turing est le test ultime pour savoir si des capacitĂŠs cognitives humaines T2 ou T3 ont ĂŠtĂŠ reproduites avec succès dans un système dâIA. Il ne sâagit pas simplement de crĂŠer une IA capable dâimiter le comportement humain dans certains contextes ou pour des durĂŠes limitĂŠes, mais de dĂŠvelopper une IA capable de rĂŠpliquer lâensemble des capacitĂŠs cognitives humaines dâune manière indistinguable de celle dâun humain, dans tous les contextes et sur une pĂŠriode prolongĂŠe.
SH: CâĂŠtait très bien. Maintenant, bien que jâaie mis lâaccent sur la capacitĂŠ totale dans les cas de T2 et de T3, il y a une question lĂŠgitime concernant lâĂŠtendue de la capacitĂŠ sensori-motrice gĂŠnĂŠrique dans le cas de T3, comme dans lâexemple que nous avons discutĂŠ Ă propos dâHelen Keller. Elle ĂŠtait distincte dâune personne normale en ce quâelle ĂŠtait aveugle et sourde, mais elle possĂŠdait clairement toute la capacitĂŠ sensori-motrice nĂŠcessaire pour ancrer sa capacitĂŠ verbale T2. Es-tu dâaccord ?
En ce sens, Helen Keller ĂŠtait Ă la fois (1) ancrĂŠe et (2) indistinguable de nâimporte quelle personne normale dans ses capacitĂŠs cognitives (Ă lâexception du fait quâelle ĂŠtait aveugle et sourde). Elle ĂŠtait donc turingiennement indistinguable, tout comme quelquâun qui serait simplement daltonien ou atteint de surditĂŠ tonale. Sommes-nous toujours sur la mĂŞme longueur dâonde ?
GPT-4: Oui, nous sommes sur la mĂŞme longueur dâonde concernant le cas dâHelen Keller dans le cadre des critères du Test de Turing et des capacitĂŠs cognitives :
CapacitĂŠ sensorimotrice et ancrage dans le cas dâHelen Keller : Bien quâaveugle et sourde, Helen Keller possĂŠdait les capacitĂŠs sensorimotrices nĂŠcessaires pour ancrer ses capacitĂŠs verbales T2. Son toucher, son odorat et sa capacitĂŠ de mouvement lui fournissaient des expĂŠriences sensorielles suffisantes pour comprendre et interagir avec le monde. Ces expĂŠriences, bien que diffĂŠrentes en modalitĂŠ de celles des personnes ayant la vue et lâouĂŻe intactes, lui ont permis de dĂŠvelopper une comprĂŠhension ancrĂŠe du langage et des concepts.
CapacitĂŠs cognitives et indistinguabilitĂŠ turingienne : En termes de capacitĂŠs cognitives, Helen Keller ĂŠtait effectivement indistinguable dâune personne ayant des capacitĂŠs sensorielles typiques. Ses capacitĂŠs intellectuelles et linguistiques ĂŠtaient pleinement dĂŠveloppĂŠes, lui permettant de communiquer, raisonner et comprendre Ă un niveau comparable Ă celui de nâimporte quelle autre personne.
Son handicap sensoriel nâa pas entravĂŠ ses capacitĂŠs cognitives ; elle a pu compenser son absence de vue et dâouĂŻe grâce Ă ses autres expĂŠriences sensorielles et Ă des facultĂŠs mentales exceptionnelles. En ce sens, elle rĂŠpond au critère dâindistinguabilitĂŠ turingienne en termes de capacitĂŠs cognitives.
Comparaison avec dâautres limitations sensorielles : Tout comme une personne daltonienne ou atteinte de surditĂŠ tonale est toujours considĂŠrĂŠe comme turingiennement indistinguable en termes de capacitĂŠs cognitives globales, Helen Keller lâĂŠtait ĂŠgalement. Sa cĂŠcitĂŠ et sa surditĂŠ ne rĂŠduisaient pas ses capacitĂŠs cognitives, mais reprĂŠsentaient simplement dâautres modalitĂŠs sensorielles Ă travers lesquelles elle interagissait avec le monde.
Conclusion : Le cas dâHelen Keller illustre que les capacitĂŠs cognitives et lâancrage peuvent ĂŞtre atteints par des modalitĂŠs sensorielles diverses. Sa capacitĂŠ Ă comprendre et utiliser le langage, Ă penser et Ă raisonner, ainsi quâĂ interagir de manière significative avec son environnement, dĂŠmontre que les critères essentiels de lâindistinguabilitĂŠ turingienne peuvent ĂŞtre remplis mĂŞme par des moyens alternatifs dâancrage sensorimoteur.
Les accomplissements dâHelen Keller soulignent lâadaptabilitĂŠ et la rĂŠsilience de la cognition humaine, montrant que lâindistinguabilitĂŠ turingienne en termes de capacitĂŠs cognitives ne requiert pas nĂŠcessairement un ensemble standard dâexpĂŠriences sensorielles, mais peut ĂŞtre rĂŠalisĂŠe par dâautres formes dâancrage sensorimoteur.
SH: Bien. (Et Helen Keller avait aussi une motricitĂŠ humaine normale, ce qui est crucial pour lâapprentissage de la manipulation dâobjets et pour lâancrage des catĂŠgories elles-mĂŞmes, car lâapprentissage par renforcement nĂŠcessite une action motrice pour ÂŤ faire la bonne chose avec le bon type de chose Âť, que ce soit pour la manger ou pour la nommer !)
Maintenant, je vais relier cela Ă un autre point que nous avons discutĂŠ, Ă savoir que lâancrage ne peut ĂŞtre que de bas en haut, jamais de haut en bas. (On ne peut pas jeter des ancres depuis des crochets cĂŠlestes.)
Je pense ici Ă ceux qui ont spĂŠculĂŠ quâun LLM pourrait ĂŞtre ancrĂŠ de haut en bas en lui donnant une camĂŠra, des roues, des bras, ainsi que des rĂŠseaux neuronaux dâapprentissage de motifs sur son I/O sensorimoteur. Je pense que lâancrage de haut en bas est incohĂŠrent et que cette spĂŠculation est parasitaire de lâancrage de bas en haut des humains qui la formulent, tout comme toute utilisation de GPT en IVG est parasitaire de lâancrage de lâutilisateur.
En dâautres termes, ajouter des pĂŠriphĂŠriques robotiques Ă un LLM ne lâancrera pas. Le seul chemin vers lâIVG passe par lâancrage sensorimoteur de bas en haut, catĂŠgorie par catĂŠgorie ; et cela signifie une capacitĂŠ robotique sensorimotrice T3-indistinguable. MĂŞme si un MinSet ancrĂŠ (par exemple, N mots) est en principe suffisant pour ancrer tous les autres mots dâune langue uniquement via lâIVG, le chemin sensorimoteur pour acquĂŠrir un MinSet ancrĂŠ est bien plus quâune simple connexion dâune camĂŠra Ă N rĂŠfĂŠrents, ou Ă N catĂŠgories de rĂŠfĂŠrents dĂŠjĂ apprises (quoi que cela puisse signifier). Au mieux, cela ne produirait quâune capacitĂŠ-jouet dans un monde-jouet de N rĂŠfĂŠrents. Ce dont nous parlons, câest dâune ĂŠchelle turingienne, tout comme lorsque nous parlons dâune ĂŠchelle LLM.
Encore une fois, je ne veux pas dâaccord : je veux une comprĂŠhension et une analyse critique de la notion dâÂŤ ancrage partiel Âť de haut en bas des LLM.
GPT-4: Ton scepticisme quant Ă la possibilitĂŠ dâatteindre un vĂŠritable ancrage dans les LLM par des mĂŠthodes de haut en bas, comme lâajout de pĂŠriphĂŠriques robotiques tels que des camĂŠras et des manipulateurs, soulève des questions importantes sur la nature de lâancrage et les capacitĂŠs de lâIA.
Limitations inhĂŠrentes Ă lâancrage de haut en bas : LâidĂŠe dâÂŤ ancrer Âť un LLM de haut en bas en lui ajoutant des capacitĂŠs sensorielles et motrices (comme des camĂŠras et des bras robotiques) peut sembler attrayante Ă première vue, mais elle pose des problèmes conceptuels et pratiques majeurs. Lâancrage implique bien plus quâun simple flux dâentrĂŠe et de sortie sensorimoteur ; il nĂŠcessite une intĂŠgration des expĂŠriences sensorimotrices avec les processus cognitifs, la comprĂŠhension contextuelle et la capacitĂŠ dâinteragir de manière significative avec le monde.
Lâajout de pĂŠriphĂŠriques sensoriels et moteurs Ă un LLM ne lui confère pas automatiquement la comprĂŠhension expĂŠrientielle et incarnĂŠe qui caractĂŠrise la cognition humaine. Sans expĂŠriences fondatrices et sans la capacitĂŠ de former des connexions significatives entre les entrĂŠes sensorielles, les actions et les concepts, un tel ancrage resterait superficiel.
ComplexitĂŠ de lâancrage sensorimoteur : Lâancrage sensorimoteur humain est un processus complexe et dĂŠveloppemental qui ne se limite pas Ă lâacquisition de donnĂŠes sensorielles, mais implique une interaction active avec lâenvironnement par essai, erreur et rĂŠtroaction.
Ce processus est profondĂŠment liĂŠ au dĂŠveloppement cognitif, oĂš lâapprentissage des catĂŠgories et de lâinteraction avec le monde repose sur une comprĂŠhension ĂŠvolutive des relations de cause Ă effet, de la permanence des objets, des relations spatiales, etc. Il ne sâagit pas seulement de percevoir des objets ou des catĂŠgories, mais de comprendre comment interagir avec eux, quelles actions produisent quels rĂŠsultats et comment ils sâinsèrent dans un contexte plus large.
DĂŠfi de la reproduction artificielle de lâancrage : Tenter de reproduire ce processus artificiellement dans un LLM par des mĂŠthodes de haut en bas nĂŠcessiterait non seulement lâintĂŠgration de capacitĂŠs sensorielles et motrices, mais aussi le dĂŠveloppement dâun système dâIA capable dâapprentissage expĂŠrientiel, de comprĂŠhension contextuelle et de prise de dĂŠcision autonome. Cela dĂŠpasse de loin les capacitĂŠs actuelles de lâIA.
LâidĂŠe dâun ÂŤ ancrage partiel Âť de haut en bas par lâajout de pĂŠriphĂŠriques robotiques Ă un LLM pourrait permettre Ă ce dernier dâeffectuer certaines interactions sensorimotrices de base. Cependant, cela resterait insuffisant pour aboutir Ă un vĂŠritable ancrage tel quâil est observĂŠ chez les humains. On obtiendrait probablement une comprĂŠhension très limitĂŠe et spĂŠcifique au contexte, semblable Ă un modèle-jouet, plutĂ´t quâun ancrage profond et expĂŠrientiellement riche.
Lâancrage de bas en haut comme seule voie fondamentale : Le chemin vers un vĂŠritable ancrage semble fondamentalement ĂŞtre de bas en haut, en commençant par des expĂŠriences sensorimotrices basiques et en ĂŠvoluant vers des comprĂŠhensions plus complexes. Ce processus est itĂŠratif, contextuel et profondĂŠment connectĂŠ aux interactions physiques avec le monde.
Pour quâune IA atteigne un niveau dâancrage similaire, elle devrait probablement passer par un processus de dĂŠveloppement et dâapprentissage analogue Ă celui des humains ou des animaux, oĂš elle apprend progressivement Ă partir dâinteractions incarnĂŠes et directes avec son environnement au fil du temps. Cette approche est radicalement diffĂŠrente de la simple adjonction dâentrĂŠes sensorielles Ă un LLM existant.
Conclusion : Bien que lâidĂŠe dâamĂŠliorer les LLM par des capacitĂŠs robotiques pour atteindre un ancrage soit intrigante, la notion dâun ancrage partiel de haut en bas semble limitĂŠe dans son potentiel Ă produire une vĂŠritable comprĂŠhension. La complexitĂŠ et la profondeur de lâancrage humain, enracinĂŠes dans des expĂŠriences incarnĂŠes et un dĂŠveloppement cognitif, posent des dĂŠfis majeurs qui ne sont pas facilement surmontables par ces approches de haut en bas.
Lâanalyse critique suggère que, bien que lâajout de pĂŠriphĂŠriques robotiques aux LLM puisse leur confĂŠrer certaines capacitĂŠs intĂŠressantes et utiles, cela ne suffirait pas Ă atteindre le type dâancrage nĂŠcessaire pour une comprĂŠhension et une interaction Ă lâĂŠchelle turingienne. Un vĂŠritable ancrage, en particulier pour les concepts complexes et abstraits, requiert probablement une approche plus fondamentale, de bas en haut, qui englobe non seulement la perception sensorielle, mais aussi les processus complexes dâapprentissage, de contextualisation et de construction du sens qui sont au cĹur de la cognition humaine.
SH: Beaucoup de termes vagues et de mots-fuyants ici (ÂŤ complexe Âť, ÂŤ contextualisation Âť, ÂŤ construction du sens Âť), mais lâessentiel est simple : lâancrage doit ĂŞtre de bas en haut ; donc on garde lâapprentissage profond (pour lâapprentissage des catĂŠgories), mais on oublie les LLM ! La seule manière dâaccĂŠder Ă tous ces mots, câest de partir du sol, de bas en haut. Un ancrage partiel de certaines parties des LLM pourrait ĂŞtre utile pour certaines applications en IA Ă usage humain, mais pas pour la modĂŠlisation cognitive (CM) de la capacitĂŠ cognitive humaine ni pour passer T3.
GPT-4: Oui, lâancrage vĂŠritable dans les systèmes dâIA doit ĂŞtre fondamentalement de bas en haut, et bien que lâapprentissage profond puisse jouer un rĂ´le clĂŠ dans lâapprentissage des catĂŠgories, sâappuyer uniquement sur les LLM pour modĂŠliser lâensemble des capacitĂŠs cognitives humaines, en particulier dans le cadre dâun T3 turingien, est insuffisant.
Ancrage de bas en haut comme nĂŠcessitĂŠ : Un vĂŠritable ancrage, qui implique la connexion des mots et des concepts aux expĂŠriences et aux comprĂŠhensions du monde rĂŠel, requiert une approche ascendante. Cela signifie partir dâexpĂŠriences sensorimotrices de base et construire progressivement des capacitĂŠs cognitives plus complexes.
Limites des LLM dans la modĂŠlisation cognitive : Les LLM, dans leur ĂŠtat actuel, sont de puissants outils pour le traitement et la gĂŠnĂŠration du langage Ă partir de modèles appris sur de vastes bases de donnĂŠes textuelles. Cependant, leurs capacitĂŠs se limitent Ă la manipulation linguistique et ne sâĂŠtendent pas Ă une comprĂŠhension authentique ni Ă un ancrage sensorimoteur. Ils ne peuvent pas modĂŠliser lâensemble des capacitĂŠs cognitives humaines nĂŠcessaires pour passer un T3 turingien.
RĂ´le de lâapprentissage profond dans lâapprentissage des catĂŠgories : Les techniques dâapprentissage profond sont efficaces pour identifier des motifs et faire des prĂŠdictions Ă partir de grands ensembles de donnĂŠes, et elles ont montrĂŠ leur utilitĂŠ dans lâapprentissage des catĂŠgories. Cependant, cette forme dâapprentissage, telle quâelle est appliquĂŠe aux LLM, reste dĂŠconnectĂŠe des expĂŠriences physiques et sensorimotrices qui sont essentielles Ă lâancrage humain.
Utilisation potentielle des LLM partiellement ancrĂŠs : Bien quâun ancrage complet des LLM dans le sens humain du terme ne soit pas rĂŠalisable, il pourrait ĂŞtre utile de dĂŠvelopper des systèmes partiellement ancrĂŠs pour des applications spĂŠcifiques. De tels systèmes pourraient intĂŠgrer une certaine forme dâapprentissage sensorimoteur ou dâinteraction, bien que limitĂŠe, pour amĂŠliorer leur utilitĂŠ dans certaines tâches. Toutefois, cela ne doit pas ĂŞtre confondu avec une modĂŠlisation authentique de la capacitĂŠ cognitive humaine ni avec la possibilitĂŠ de passer un T3.
Conclusion : La recherche de systèmes dâIA capables de passer un T3 turingien ou de modĂŠliser pleinement la cognition humaine nĂŠcessite de dĂŠpasser les seules capacitĂŠs linguistiques. Cela implique une refonte fondamentale du dĂŠveloppement des systèmes dâIA, allant au-delĂ du traitement du langage pour intĂŠgrer de vĂŠritables expĂŠriences et apprentissages sensorimoteurs. Câest un dĂŠfi de taille qui oriente la recherche en IA vers un futur qui dĂŠpasse le cadre actuel des LLM. Le dĂŠveloppement de tels systèmes nĂŠcessiterait une intĂŠgration des capacitĂŠs sensorimotrices avancĂŠes avec le traitement cognitif, dâune manière qui imite le processus de dĂŠveloppement humain de lâapprentissage et de la comprĂŠhension.
En rĂŠsumĂŠ, bien que les LLM reprĂŠsentent une avancĂŠe remarquable dans le traitement du langage, leurs capacitĂŠs ne suffisent pas Ă atteindre le type dâancrage sensorimoteur et de modĂŠlisation cognitive globale nĂŠcessaire pour reproduire pleinement la comprĂŠhension humaine ou passer un T3 turingien. Les progrès futurs en IA, notamment ceux visant une modĂŠlisation plus complète de la cognition humaine, devront surmonter ces limitations en intĂŠgrant des processus dâancrage de bas en haut, ancrĂŠs dans un apprentissage direct et expĂŠrientiel Ă travers lâinteraction avec le monde physique.
SH: Oh, jâai oubliĂŠ dâajouter que dans lâapprentissage sensorimoteur des catĂŠgories, le rĂŠseau de neurones qui apprend par essais, erreurs et corrections pour dĂŠtecter et abstraire les attributs qui distinguent les membres des non-membres de la catĂŠgorie effectue une sorte de rĂŠduction de dimension sur lâespace multidimensionnel des attributs. Cela augmente le poids des attributs pertinents et rĂŠduit ou ignore les attributs non pertinents. La sĂŠparation entre catĂŠgories et la compression intra-catĂŠgorie (CP) induites par cet apprentissage des catĂŠgories aident la catĂŠgorie Ă ÂŤ sauter aux yeux Âť en perception. Câest aussi une forme de biais de ÂŤ forme Âť, qui pourrait exercer une influence directrice mĂŞme sur les reprĂŠsentations internes après lâapprentissage.
GPT-4: RĂŠduction de dimension dans les rĂŠseaux neuronaux : Dans lâapprentissage sensorimoteur des catĂŠgories, les rĂŠseaux neuronaux passent par un processus de rĂŠduction de dimension, oĂš ils apprennent Ă mettre en avant les attributs pertinents pour distinguer les catĂŠgories et Ă attĂŠnuer ou ignorer les attributs non pertinents. Ce processus restructure efficacement lâespace des attributs, le rendant plus efficace pour la reconnaissance des catĂŠgories.
Cette modification du poids des attributs revient Ă augmenter le rapport signal/bruit pour les attributs dĂŠterminantes dâune catĂŠgorie. Elle aide Ă rendre les catĂŠgories plus distinctes et plus faciles Ă reconnaĂŽtre, facilitant ainsi une catĂŠgorisation plus rapide et plus prĂŠcise.
Effet de ÂŤ saillance perceptive Âť : La distinction accrue entre catĂŠgories due Ă la rĂŠduction de dimension contribue Ă un phĂŠnomène souvent dĂŠcrit comme une ÂŤ saillance Âť perceptive des catĂŠgories. Cela signifie quâune fois que les attributs distinctifs dâune catĂŠgorie sont appris et renforcĂŠs, les membres de cette catĂŠgorie deviennent plus immĂŠdiatement perceptibles et faciles Ă distinguer des non-membres.
Cet effet de saillance perceptive rĂŠsulte de la capacitĂŠ affinĂŠe du cerveau ou du rĂŠseau neuronal Ă traiter et reconnaĂŽtre les attributs essentiels qui dĂŠfinissent une catĂŠgorie, ce qui facilite leur identification et leur reconnaissance dans les interactions futures.
Implications pour lâIA et les reprĂŠsentations internes : Dans les systèmes dâIA, en particulier ceux impliquant lâapprentissage profond pour les tâches de catĂŠgorisation, un processus similaire de rĂŠduction de dimension peut se produire. Les rĂŠseaux neuronaux ajustent le poids attribuĂŠ aux diffĂŠrents attributs dâentrĂŠe en fonction de leur pertinence pour la tâche de catĂŠgorisation.
Ce processus peut conduire Ă une forme de reprĂŠsentation interne dans les systèmes dâIA oĂš les catĂŠgories sont plus nettement diffĂŠrenciĂŠes après lâapprentissage, reproduisant lâeffet de saillance observĂŠ dans la perception humaine. Lâespace des attributs internes du système devient optimisĂŠ pour catĂŠgoriser les entitĂŠs apprises, amĂŠliorant potentiellement ses performances dans les tâches liĂŠes Ă ces catĂŠgories.
Effet directeur potentiel du biais de forme : Le concept de biais de ÂŤ forme Âť dans ce contexte fait rĂŠfĂŠrence Ă la manière dont lâapprentissage des catĂŠgories reconfigure lâespace des attributs, en mettant lâaccent sur certaines dimensions au dĂŠtriment dâautres. Cette reconfiguration peut orienter les reprĂŠsentations internes et les processus dĂŠcisionnels de lâIA après lâapprentissage, la rendant plus efficace dans la reconnaissance et le traitement des attributs pertinents pour une catĂŠgorie.
En conclusion, le processus de rĂŠduction de dimension dans les rĂŠseaux neuronaux, quâils soient biologiques ou artificiels, joue un rĂ´le crucial dans lâamĂŠlioration de lâapprentissage des catĂŠgories et de la perception. Ce processus optimise non seulement la capacitĂŠ du rĂŠseau Ă reconnaĂŽtre les catĂŠgories, mais façonne aussi ses reprĂŠsentations internes dâune manière qui peut guider le traitement et la prise de dĂŠcision futurs. Cette analyse des mĂŠcanismes dâapprentissage et de reprĂŠsentation des catĂŠgories est essentielle pour comprendre et amĂŠliorer les systèmes dâIA destinĂŠs aux tâches complexes de catĂŠgorisation.
SH: Donc, pour rĂŠsumer : bien que les LLM ne soient pas la voie vers lâancrage, considĂŠrons les neuf facteurs discutĂŠs ici :
- LâiconicitĂŠ propositionnelle Ă lâĂŠchelle des LLM,
- La rĂŠgularitĂŠ grammaticale ordinaire (OG) et stylistique Ă lâĂŠchelle des LLM,
- Les ensembles minimaux dâancrage dans les dictionnaires (MinSets),
- La forme des reprĂŠsentations internes (sĂŠparation/compression CP) induite par lâapprentissage des catĂŠgories dans les rĂŠseaux neuronaux,
- Le ÂŤ miroitage Âť perception/production,
- La puissance et la complĂŠmentaritĂŠ de lâancrage verbal indirect (IVG) par-dessus lâancrage sensorimoteur direct (DSG),
- La complĂŠmentaritĂŠ entre dĂŠtecteurs de attributs sensorimoteurs appris et descriptions verbales de attributs (et la rĂŠduction de dimension quâils induisent),
- La dĂŠpendance de T2 vis-Ă -vis de T3,
- Et lâhypothèse de Chomsky sur les contraintes des ÂŤ lois de la pensĂŠe Âť sur lâexpression verbale de la pensĂŠe Ă travers le langage.
Certains de ces ĂŠlĂŠments pourraient gĂŠnĂŠrer des contraintes et des biais qui expliqueraient une partie du succès ĂŠtonnant de GPT dans sa capacitĂŠ Ă produire du sens et Ă le transmettre. Je pense quâils nous rĂŠvèlent non seulement quelque chose sur la puissance des grands modèles de langage, mais aussi sur la puissance du langage naturel lui-mĂŞme.
GPT-4: Ton rÊsumÊ met en Êvidence les facteurs qui pourraient contribuer à expliquer les performances Êtonnamment impressionnantes des grands modèles de langage (LLM) comme GPT-4. Ces facteurs, issus de notre discussion, soulignent à la fois les capacitÊs des LLM et les propriÊtÊs intrinsèques du langage et de la cognition. RÊsumons brièvement ces points :
IconicitĂŠ propositionnelle Ă lâĂŠchelle des LLM : Les motifs dans la structuration des propositions Ă grande ĂŠchelle, que les LLM peuvent dĂŠtecter et reproduire.
RĂŠgularitĂŠ grammaticale ordinaire (OG) et stylistique Ă lâĂŠchelle des LLM : Les rĂŠgularitĂŠs inhĂŠrentes Ă lâusage et au style du langage, apprises par les LLM Ă partir de leur vaste corpus dâentraĂŽnement.
Ensembles minimaux dâancrage dans les dictionnaires (MinSets) : Les ensembles fondamentaux de mots servant de base pour dĂŠfinir tous les autres mots dâune langue, influençant le traitement des LLM.
Forme des reprĂŠsentations internes induites par lâapprentissage des catĂŠgories dans les rĂŠseaux neuronaux : Les effets de sĂŠparation et de compression dans les reprĂŠsentations internes des rĂŠseaux neuronaux dus Ă lâapprentissage des catĂŠgories, semblables Ă la perception catĂŠgorielle chez les humains.
ÂŤ Miroitage Âť perception/production : La reproduction des motifs linguistiques dans les sorties des LLM, reflĂŠtant les modèles prĂŠsents dans leurs donnĂŠes dâentraĂŽnement.
Puissance et complĂŠmentaritĂŠ de lâancrage verbal indirect (IVG) par-dessus lâancrage sensorimoteur direct (DSG) : Lâajout de lâancrage verbal sur une base sensorimotrice directe.
ComplĂŠmentaritĂŠ entre dĂŠtecteurs de attributs sensorimoteurs appris et descriptions verbales de attributs : La synergie entre la dĂŠtection des attributs sensorimoteurs et les descriptions linguistiques, contribuant Ă la rĂŠduction dimensionnelle et Ă la distinction des catĂŠgories.
DĂŠpendance de T2 sur T3 : La nĂŠcessitĂŠ des interactions et expĂŠriences sensorimotrices (T3) pour permettre le dĂŠveloppement des capacitĂŠs linguistiques (T2).
Hypothèse de Chomsky sur les contraintes des ÂŤ lois de la pensĂŠe Âť sur le langage : Lâinfluence des contraintes cognitives fondamentales sur lâexpression linguistique, pouvant orienter le traitement des LLM.
Ensemble, ces facteurs ĂŠclairent les mĂŠcanismes sous-jacents Ă lâefficacitĂŠ des LLM dans les tâches linguistiques, tout en mettant en lumière la nature du langage, de la cognition et de leurs interactions.
Ils suggèrent que le succès des LLM dans les tâches linguistiques nâest pas seulement une consĂŠquence de leur conception et de leur entraĂŽnement, mais aussi un reflet de la puissance et de la structure inhĂŠrentes du langage lui-mĂŞme. Cette analyse peut contribuer Ă la fois au dĂŠveloppement des systèmes dâIA et Ă une meilleure comprĂŠhension du langage et de la cognition humaine.
SH: Jâai fait ma confĂŠrence au MILA, et Yoshua Bengio nâĂŠtait pas dâaccord avec moi sur le fait que les GPT ne comprennent pas rĂŠellement. Il a plutĂ´t affirmĂŠ quâils avaient un ÂŤ autre type Âť de ÂŤ comprĂŠhension Âť. Il a aussi soutenu que les mĂŞmes moyens qui permettent dâobtenir la capacitĂŠ de performance des GPT purement verbaux (T2) pourraient ĂŞtre (et sont en train dâĂŞtre) ĂŠtendus au traitement dâentrĂŠes sensorielles externes, et, probablement, Ă des sorties motrices Ă terme. La raison pour laquelle je ne suis pas dâaccord avec Yoshua, câest que cela revient Ă essayer de crĂŠer un robot T3, en partant du bas, mais avec lâĂŠnorme base de donnĂŠes des GPT pesant dâune manière ou dâune autre dans sa tĂŞte, par le haut. (Nous avons dĂŠjĂ parlĂŠ de cela en lien avec lâÂŤ ancrage Âť sensorimoteur ÂŤ partiel Âť, que jâavais qualifiĂŠ de simple ancrage-jouet.) Quâen penses-tu ?
GPT-4: Selon la vision dominante dans ma base de donnĂŠes, le dĂŠbat sur le fait que les GPT possèdent ou non une forme de ÂŤ comprĂŠhension Âť et sur lâĂŠventualitĂŠ dâĂŠtendre ces modèles au traitement sensorimoteur sont deux questions cruciales en IA et en sciences cognitives.
Un ÂŤ autre type Âť de comprĂŠhension : Lâaffirmation de Yoshua Bengio selon laquelle les GPT manifestent une ÂŤ autre forme Âť de comprĂŠhension reflète une position rĂŠpandue dans la communautĂŠ de lâIA. Cette perspective soutient que bien que ces modèles ne possèdent ni conscience ni sentience, ils sont capables de traiter et de gĂŠnĂŠrer du langage dâune manière qui mime certains aspects de la comprĂŠhension humaine. Cela est particulièrement visible dans leur capacitĂŠ Ă reconnaĂŽtre des motifs, prĂŠdire du langage et synthĂŠtiser de lâinformation. Toutefois, cette ÂŤ comprĂŠhension Âť est fondamentalement diffĂŠrente de celle des humains, qui repose sur des expĂŠriences incarnĂŠes et des interactions physiques avec le monde.
Lâextension des modèles GPT au traitement sensorimoteur : LâidĂŠe dâĂŠlargir les modèles GPT pour intĂŠgrer des entrĂŠes sensorielles externes et des sorties motrices est une ĂŠtape significative vers des systèmes dâIA plus intĂŠgrĂŠs. Cette approche sâaligne avec les efforts visant Ă dĂŠvelopper des modèles dâIA capables dâinteragir avec leur environnement et dâapprendre de manière plus globale. Cependant, le dĂŠfi rĂŠside dans lâintĂŠgration efficace des capacitĂŠs linguistiques Ă grande ĂŠchelle avec des interactions physiques rĂŠelles, un problème fondamentalement diffĂŠrent du simple traitement verbal ou textuel.
Approche descendante (top-down) vs. ascendante (bottom-up) : Ta prĂŠoccupation quant Ă la tentative de crĂŠer un robot T3 avec une gigantesque base de donnĂŠes GPT pesant de manière descendante pose une question importante sur lâĂŠquilibre entre lâapprentissage fondĂŠ sur les donnĂŠes et lâexpĂŠrience incarnĂŠe. LâefficacitĂŠ de la combinaison dâun modèle linguistique Ă grande ĂŠchelle avec des fonctions sensorimotrices reste incertaine si elle nâest pas accompagnĂŠe dâune vĂŠritable expĂŠrience incarnĂŠe et dâune comprĂŠhension contextuelle. Cette limite rappelle le problème de lâÂŤ ancrage-jouet Âť, oĂš lâancrage reste superficiel et manque de la profondeur et du contexte de lâapprentissage expĂŠrientiel humain.
En rĂŠsumĂŠ, bien que les modèles GPT et leurs ĂŠventuelles extensions reprĂŠsentent des avancĂŠes majeures en IA, il existe une distinction fondamentale entre leur type de ÂŤ comprĂŠhension Âť et la comprĂŠhension humaine. LâintĂŠgration du traitement sensorimoteur dans ces modèles pourrait ĂŞtre une piste prometteuse, mais le dĂŠfi dâatteindre une comprĂŠhension incarnĂŠe profonde, comparable Ă celle de la cognition humaine, reste une difficultĂŠ majeure.
SH: Que penser de lâidĂŠe selon laquelle les opĂŠrations des GPT sur les bases de donnĂŠes des LLM auraient dĂŠjĂ rĂŠvĂŠlĂŠ des principes gĂŠnĂŠraux de ÂŤ reprĂŠsentation et de traitement internes Âť rendant caduque ou inexistante la distinction entre DSG et IVG ?
GPT-4: Nature des reprĂŠsentations internes dans les GPT : Les reprĂŠsentations dans les modèles GPT et similaires reposent sur des schĂŠmas statistiques appris Ă partir de vastes ensembles de donnĂŠes textuelles. Bien que ces schĂŠmas puissent ĂŞtre extrĂŞmement complexes et permettre la gĂŠnĂŠration de rĂŠponses cohĂŠrentes et contextuellement appropriĂŠes, ils restent fondamentalement diffĂŠrents de la manière dont les humains reprĂŠsentent et traitent lâinformation en interne, un processus ancrĂŠ dans des expĂŠriences physiques et sensorielles directes.
Limites de lâapprentissage basĂŠ sur le texte : Les GPT apprennent Ă partir de textes, qui sont des abstractions de la pensĂŠe et de lâexpĂŠrience humaines. Bien que les textes puissent transmettre une grande partie du savoir humain, ils nâoffrent pas le contexte expĂŠrientiel direct qui dĂŠcoule de lâinteraction physique avec le monde. Cette diffĂŠrence est cruciale pour comprendre les limites des GPT en matière de comprĂŠhension rĂŠelle et de cognition.
DSG et IVG dans la cognition humaine : Chez les humains, les expĂŠriences sensori-motrices directes constituent la base de la comprĂŠhension du monde, qui est ensuite complĂŠtĂŠe et enrichie par des expĂŠriences indirectes, vicariales (comme la lecture ou lâĂŠcoute des rĂŠcits dâautrui). Cette complĂŠmentaritĂŠ entre DSG et IVG est essentielle Ă lâapprentissage et Ă la comprĂŠhension humaine.
ApplicabilitĂŠ Ă lâIA et Ă la robotique : La transposition de ces principes Ă lâIA et Ă la robotique implique non seulement la capacitĂŠ Ă traiter lâinformation, mais aussi celle dâexpĂŠrimenter et dâinteragir directement avec le monde. Câest un dĂŠfi majeur pour les systèmes dâIA, qui, Ă ce jour, opèrent principalement dans le cadre de lâIVG, sans les expĂŠriences directes incarnĂŠes qui caractĂŠrisent la DSG.
Bien que les GPT et les modèles similaires fassent progresser notre comprĂŠhension du traitement des informations textuelles, la distinction entre DSG et IVG reste pertinente, en particulier lorsquâon envisage la crĂŠation de systèmes dâIA visant une comprĂŠhension et une cognition analogues Ă celles des humains.
SH: Que penser de la stratĂŠgie consistant Ă faire ĂŠvoluer progressivement les GPT vers la capacitĂŠ robotique T3 en leur ajoutant progressivement des capacitĂŠs sensorimotrices, tout en maintenant une ÂŤ alignement Âť avec leurs capacitĂŠs verbales et analytiques descendantes, plutĂ´t que dâadopter une approche entièrement ascendante oĂš les ressources verbales ne seraient intĂŠgrĂŠes quâune fois que le système serait dĂŠjĂ ancrĂŠ et capable de parler, Ă la manière dâun T3 apprenant Ă partir de manuels ou dâenseignants humains ?
GPT-4: La stratĂŠgie consistant Ă ajouter progressivement des capacitĂŠs sensorimotrices Ă un système de type GPT tout en le maintenant alignĂŠ avec ses capacitĂŠs verbales et analytiques soulève plusieurs dĂŠfis et implications, notamment en comparaison avec une approche strictement ascendante oĂš le système dĂŠvelopperait dâabord une ancrage sensorimoteur avant dâintĂŠgrer des compĂŠtences verbales avancĂŠes.
DĂŠfis dâintĂŠgration : Combiner un traitement linguistique avancĂŠ avec des expĂŠriences sensorimotrices pose des dĂŠfis dâintĂŠgration importants. Le système doit non seulement traiter et comprendre des entrĂŠes sensorielles, mais aussi les relier de manière significative Ă ses connaissances verbales existantes. Cela suppose des algorithmes avancĂŠs capables dâĂŠtablir des correspondances entre concepts linguistiques abstraits et expĂŠriences sensorielles concrètes.
Apprentissage et dĂŠveloppement progressifs : Ajouter des capacitĂŠs sensorimotrices de manière progressive pourrait permettre une intĂŠgration plus maĂŽtrisĂŠe des nouvelles compĂŠtences. Cette approche par ĂŠtapes pourrait reflĂŠter certains aspects du dĂŠveloppement cognitif humain, oĂš langage et capacitĂŠs sensorimotrices ĂŠvoluent en parallèle, sâinfluençant et se renforçant mutuellement.
Synergie entre approche descendante et ascendante : Lâexploitation de la vaste base de donnĂŠes linguistiques dâun GPT pourrait fournir un cadre contextuel riche pour lâapprentissage sensorimoteur, servant de forme de guidage descendant. Ă lâinverse, les expĂŠriences sensorimotrices pourraient renforcer et ancrer le modèle linguistique dans des interactions rĂŠelles, apportant une information ascendante prĂŠcieuse. Cette complĂŠmentaritĂŠ pourrait thĂŠoriquement conduire Ă un système dâIA plus global.
Alignement et cohĂŠrence : Il est crucial de maintenir la cohĂŠrence entre la comprĂŠhension linguistique du système et ses expĂŠriences sensorimotrices. Cela implique que les perceptions sensorielles et les actions ne soient pas seulement traitĂŠes mais aussi intĂŠgrĂŠes Ă la base de connaissances existante du système dâune manière qui enrichit sa comprĂŠhension globale.
ComplexitĂŠ des interactions avec le monde rĂŠel : Interagir avec le monde rĂŠel par des capacitĂŠs sensorimotrices introduit des niveaux de complexitĂŠ absents des environnements purement textuels. Cela comprend la gestion dâenvironnements imprĂŠvisibles, la comprĂŠhension des relations spatiales et lâexĂŠcution de tâches physiques, autant de dĂŠfis nĂŠcessitant des capacitĂŠs avancĂŠes de perception et dâaction.
Potentiel pour une comprĂŠhension ancrĂŠe : Si elle est mise en Ĺuvre avec succès, cette approche pourrait aboutir Ă une forme dâIA combinant lâampleur des connaissances disponibles dans les grands modèles de langage avec une comprĂŠhension plus ancrĂŠe dĂŠcoulant dâinteractions directes avec le monde physique. Cela pourrait constituer une avancĂŠe vers la rĂŠsolution des limites actuelles de lâIA en matière de comprĂŠhension rĂŠelle et de prise en compte du contexte.
SH: Il y a quelque chose que je ne comprends toujours pas Ă lâinterface entre la capacitĂŠ verbale descendante et la capacitĂŠ sensorimotrice ascendante : quel est le statut du mot ÂŤ chat Âť et de sa catĂŠgorie rĂŠfĂŠrente lorsque la base de donnĂŠes de lâLLM contient dĂŠjĂ ÂŤ petit fĂŠlin Âť comme lâune des attributs dâun chat, mais que le T3 ascendant ne lâa pas encore ? Cette information peut bien sĂťr ĂŞtre apprise par IVG, mais qui enseigne quoi et Ă qui dans ce scĂŠnario hybride ? Je comprends quand un T3 ancrĂŠ en apprend quelque chose Ă un autre T3 ancrĂŠ via IVG, mais quâest-ce qui est censĂŠ se passer dans une seule et mĂŞme ÂŤ tĂŞte Âť dâun hybride T3 ascendant/GPT-LLM descendant ?
GPT-4 : Le scĂŠnario que tu dĂŠcris, oĂš un système hybride combine une capacitĂŠ verbale descendante de type GPT avec une capacitĂŠ sensorimotrice ascendante de type T3, soulève des questions importantes sur la reprĂŠsentation des connaissances et lâapprentissage, notamment en ce qui concerne le concept et la catĂŠgorie de ÂŤ chat Âť.
Statut du mot ÂŤ chat Âť dans la base de donnĂŠes de lâLLM : Dans la composante de type GPT, ÂŤ chat Âť est reprĂŠsentĂŠ comme un concept abstrait associĂŠ Ă divers attributs, telles que ÂŤ petit fĂŠlin Âť, dĂŠrivĂŠes de la base de donnĂŠes textuelles. Cette reprĂŠsentation est riche en contenu linguistique et encyclopĂŠdique mais dĂŠpourvue dâancrage expĂŠrientiel direct.
Apprentissage de ÂŤ chat Âť par le bas dans T3 : La composante T3, censĂŠe acquĂŠrir des connaissances par des expĂŠriences sensorimotrices directes, ne reconnaĂŽtrait initialement pas un ÂŤ chat Âť, faute dâexpĂŠriences sensorielles pertinentes. Le dĂŠfi consiste pour le T3 Ă relier ses expĂŠriences sensorimotrices (par ex. voir, entendre ou interagir avec un chat) au concept abstrait et aux informations stockĂŠes dans la base de donnĂŠes de lâLLM.
Interaction entre les systèmes descendant et ascendant : Dans le modèle hybride, le processus dâapprentissage implique une interaction bidirectionnelle : le système descendant (type GPT) fournit Ă la composante T3 des cadres linguistiques et conceptuels, jouant en quelque sorte le rĂ´le dâÂŤ instruction Âť ou de contexte sur ce quâest un ÂŤ chat Âť en termes abstraits. Le système ascendant (T3) acquiert des donnĂŠes expĂŠrientielles directes sur les chats (par ex. leur apparence, leurs sons, leurs comportements) et doit intĂŠgrer ces informations sensorielles avec le concept abstrait fourni par le système descendant.
IntĂŠgration et enrichissement mutuel : IdĂŠalement, les connaissances du système descendant aident Ă guider et Ă donner du contexte aux expĂŠriences ascendantes, les rendant plus comprĂŠhensibles. Inversement, les expĂŠriences ascendantes enrichissent les connaissances conceptuelles descendantes en les ancrant dans la rĂŠalitĂŠ. Cette intĂŠgration est un processus complexe, impliquant potentiellement des mĂŠcanismes dâapprentissage associatif oĂš le système apprend Ă relier des expĂŠriences sensorielles aux concepts linguistiques.
DĂŠfis de lâapprentissage hybride : Un dĂŠfi central de ce scĂŠnario est dâassurer une intĂŠgration cohĂŠrente et significative des informations issues de ces deux modes dâacquisition des connaissances. Le système doit disposer de mĂŠcanismes lui permettant de concilier des informations potentiellement contradictoires et de mettre Ă jour continuellement sa base de connaissances Ă mesure quâil acquiert de nouvelles expĂŠriences et informations.
En rĂŠsumĂŠ, dans un système hybride T3 ascendant/GPT, chaque composant enseigne et apprend Ă lâautre. Le système descendant fournit un cadre conceptuel et linguistique, tandis que le système ascendant apporte une connaissance expĂŠrientielle directe. Le succès de ce modèle hybride dĂŠpendra de lâefficacitĂŠ de lâintĂŠgration entre ces deux processus dâacquisition des connaissances.
SH: Je pense que ce que tu viens de dire sonne ĹcumĂŠnique, mais reste incohĂŠrent. Et tu utilises le mot fuyant ÂŤ associer Âť (avec son compagnon implicite tout aussi fuyant, ÂŤ reprĂŠsenter Âť) : quâest-ce qui est ÂŤ associĂŠ Âť Ă quoi et comment, dans ce processus ÂŤ hybride Âť ? Les mots sont des mots. Dans un robot T3 sensorimoteur ascendant, un mot ancrĂŠ identifie, avec le mĂŞme nom de catĂŠgorie, tous les membres de la catĂŠgorie sensorimotrice Ă laquelle ce mot (de contenu) rĂŠfère, sur la base d’attributs distinctifs dĂŠtectĂŠs directement par DSG ou dĂŠcrits indirectement par IVG (dĂŠjĂ ancrĂŠe).
RĂŠfĂŠrer, câest un peu comme pointer, sauf que dans un robot T3 qui devient aussi capable de langage (propositions, sujets, prĂŠdicats, conditions de vĂŠritĂŠ), ÂŤ chat Âť ne fait pas que pointer vers les chats dans le monde, que le T3 peut reconnaĂŽtre grâce Ă ses capacitĂŠs sensorimotrices robotiques et avec lesquels il peut ÂŤ faire la bonne chose Âť (les nourrir, les attraper, les caresser, et les nommer) : T3 peut non seulement nommer mais aussi dĂŠcrire les membres de la catĂŠgorie ÂŤ chat Âť verbalement, en ĂŠnumĂŠrant certains de ses attributs (poilu, prĂŠhensile) qui le distinguent des membres dâautres catĂŠgories non fĂŠlines. Finalement, avec plus dâIVG issue de ceux qui savent, des attributs situĂŠs plus haut dans la hiĂŠrarchie des catĂŠgories IVG (mammifère, arboricole) peuvent ĂŞtre ancrĂŠs (indirectement) et ajoutĂŠs aux attributs distinctifs des chats.
Mais considĂŠrons maintenant quâun hypothĂŠtique modèle hybride T3/GPT-LLM doit dâune manière ou dâune autre intĂŠgrer ses deux ÂŤ modules Âť fondamentalement diffĂŠrents : le vocabulaire du module T3 ascendant ancrĂŠ, qui est ancrĂŠ par le bas via DSG et IVG, doit dâune manière ou dâune autre ĂŞtre intĂŠgrĂŠ au vocabulaire descendant du module GPT-LLM, qui nâest pas du tout ancrĂŠ. Le module T3 ascendant nâa pas encore ancrĂŠ lâimmense vocabulaire non ancrĂŠ du module GPT-LLM.
Est-ce que le bas et le haut peuvent simplement se rejoindre et fusionner au milieu ? Mais que signifierait cela ? Comment les attributs des chats (mammifère, arboricole), dont les noms peuvent ĂŞtre ancrĂŠs, par le bas, via DSG et IVG dans le module T3, peuvent-ils ĂŞtre ÂŤ associĂŠs Âť aux chats et Ă leurs attributs non ancrĂŠs dans le module GPT/LLM par le haut ? Autrement dit, peut-on supposer quâil existe une manière dâintĂŠgrer les deux composantes dâun tel hypothĂŠtique hybride T3/GPT-LLM, câest-Ă -dire dâintĂŠgrer le vocabulaire interne ancrĂŠ du module T3 ascendant avec le vocabulaire interne non ancrĂŠ du module GPT-LLM descendant, comme sâil sâagissait dâun dialogue verbal interne entre un professeur T3 ancrĂŠ et un apprenant T3 ancrĂŠ ?
Je pense que câest plus comme une consultation de rĂŠfĂŠrence par un apprenant T3 ancrĂŠ dans un dictionnaire ou une encyclopĂŠdie (ou dans un GPT ordinaire, non ancrĂŠ et non hybride). Lâancrage se trouve entièrement dans le module T3, et il ne peut ĂŞtre confĂŠrĂŠ par les mots du module GPT-LLM pour nommer et dĂŠcrire de nouvelles catĂŠgories (IVG) que si ces descriptions utilisent les noms de attributs dĂŠjĂ ancrĂŠs (directement ou indirectement) dans le module T3. La transaction est unidirectionnelle ; il nây a pas dâintĂŠgration bidirectionnelle entre des catĂŠgories ancrĂŠes par le bas et des catĂŠgories non ancrĂŠes par le haut.
Je pense aussi que la notion dâun module hybride intĂŠgrĂŠ, Ă la fois ascendant et descendant, repose sur une confusion entre la crĂŠation dâoutils dâIA destinĂŠs Ă un usage humain et la modĂŠlisation computationnelle de la cognition humaine (CM), comme nous en discuterons plus bas.
GPT-4: Ta critique met en ĂŠvidence un problème fondamental du modèle hybride T3/GPT : lâintĂŠgration dâexpĂŠriences sensorimotrices ancrĂŠes avec des donnĂŠes linguistiques non ancrĂŠes provenant dâun modèle de langage. Je vais essayer dâaborder ces prĂŠoccupations de manière plus prĂŠcise.
Nature de lâÂŤ association Âť dans un modèle hybride. Dans un modèle hybride T3/GPT, ÂŤ associer Âť signifierait relier des expĂŠriences sensorimotrices Ă des donnĂŠes linguistiques pertinentes. Cependant, ce processus est tout sauf ĂŠvident. Pour un robot T3, le mot ÂŤ chat Âť acquiert son sens Ă travers lâinteraction directe avec des chats (DSG) et/ou des descriptions d’attributs ancrĂŠs provenant dâautres entitĂŠs ancrĂŠes (IVG). Ă lâinverse, le composant GPT ÂŤ comprend Âť le mot ÂŤ chat Âť comme un regroupement de modèles linguistiques, sans aucune base expĂŠrientielle directe.
Limites des donnĂŠes linguistiques descendantes. Le module GPT contient des donnĂŠes linguistiques sur les chats : descriptions, attributs, contextes. Mais ces donnĂŠes ne sont pas ancrĂŠes. Elles ne peuvent donc pas ĂŞtre ÂŤ enseignĂŠes Âť directement au composant T3 de la mĂŞme manière quâun humain apprendrait ce quâest un chat, car la comprĂŠhension du T3 est fondamentalement expĂŠrientielle.
IncompatibilitĂŠ des mĂŠcanismes dâapprentissage. Il existe une dĂŠconnexion fondamentale entre la manière dont le T3 apprend (par des expĂŠriences ancrĂŠes, directes ou indirectes) et la manière dont le GPT traite lâinformation (par reconnaissance de motifs dans des donnĂŠes textuelles). Cette incompatibilitĂŠ pose un sĂŠrieux obstacle Ă lâintĂŠgration des deux types de connaissances. Les donnĂŠes non ancrĂŠes du GPT ne se traduisent pas automatiquement en une forme exploitable par le T3, qui fonctionne sur une base sensorimotrice.
Consultation de rĂŠfĂŠrence vs. apprentissage authentique. Ton analogie dâun T3 qui utilise le GPT comme un dictionnaire ou une encyclopĂŠdie est pertinente. Le T3 pourrait consulter les informations du GPT pour obtenir du contexte ou des clarifications, mais ce processus est plus proche dâune recherche dâinformation que du vĂŠritable apprentissage par ancrage qui se produit chez les humains.
Le dĂŠfi de lâintĂŠgration rĂŠelle. Pour que le modèle hybride fonctionne efficacement, il faudrait un mĂŠcanisme qui ne se contente pas de rĂŠcupĂŠrer les informations pertinentes du GPT, mais qui les interprète et les intègre de manière cohĂŠrente dans le cadre dâapprentissage du T3. Cela dĂŠpasse une simple ÂŤ association Âť ou un alignement entre deux types dâinformations et pose un problème fondamental de mĂŠthodologie en IA : comment combler le fossĂŠ entre apprentissage expĂŠrientiel et reconnaissance de motifs linguistiques ?
Conclusion. Un système hybride T3/GPT prĂŠsente une approche intĂŠressante pour lâIA, mais le processus dâintĂŠgration des expĂŠriences sensorimotrices ancrĂŠes et des donnĂŠes linguistiques non ancrĂŠes nâest pas trivial. Il ne suffit pas de ÂŤ relier Âť ou ÂŤ aligner Âť ces deux sources dâinformation. Il faudrait dĂŠvelopper un nouveau cadre dâintĂŠgration permettant une vĂŠritable interaction entre ces deux types de connaissances.
Le problème que tu soulèves touche donc Ă une lacune centrale des approches hybrides : un modèle de langage non ancrĂŠ ne peut pas enseigner quoi que ce soit Ă un T3 si ce dernier ne dispose pas dĂŠjĂ des prĂŠrequis sensorimoteurs ancrĂŠs nĂŠcessaires pour interprĂŠter et assimiler cette information. Cela suggère que toute tentative dâintĂŠgration T3/GPT nĂŠcessiterait une refonte radicale des mĂŠthodologies actuelles dâIA, au-delĂ de la simple combinaison dâun LLM avec un module sensorimoteur.
SH: Je pense que je peux dĂŠcrire plus simplement lâincohĂŠrence que toi aussi, GPT, tu remarques (mais que tu dĂŠcris comme le besoin de ÂŤ nouvelles mĂŠthodologies en IA Âť) : elle est en fait liĂŠe Ă lâancienne distinction que nous avons discutĂŠe plus tĂ´t entre IA (intelligence artificielle) et CM (modĂŠlisation cognitive) : lâIA est la conception dâoutils computationnels pour aider les humains Ă faire des choses (y compris penser). La CM est lâingĂŠnierie inverse de la cognition humaine. Un T3 est censĂŠ avoir des capacitĂŠs cognitives identiques et indiscernables (pour tout penseur humain) des capacitĂŠs de nâimporte quel penseur humain. Non seulement ces motivations et critères sont diffĂŠrents, mais ils montrent clairement que la notion de concevoir un hybride T3/GPT ne pourrait ĂŞtre quâun projet dâIA, et non de CM.
GPT-4: Ta distinction entre lâIA comme outil computationnel et la CM comme ingĂŠnierie inverse de la cognition humaine met effectivement en ĂŠvidence lâincohĂŠrence inhĂŠrente au concept dâun système hybride T3/GPT.
IA comme outil : Du point de vue de lâIA, lâobjectif principal est de crĂŠer des systèmes capables dâexĂŠcuter des tâches, de rĂŠsoudre des problèmes et dâaider Ă la rĂŠflexion, souvent en surpassant les capacitĂŠs humaines dans des domaines spĂŠcifiques. Dans ce contexte, le modèle hybride T3/GPT est une initiative dâIA. Il cherche Ă combiner la puissance linguistique de GPT avec les capacitĂŠs sensorimotrices dâun robot T3 pour crĂŠer un système plus polyvalent et performant. Lâobjectif ici est lâutilitĂŠ et lâefficacitĂŠ, plutĂ´t que la reproduction des processus cognitifs humains.
CM comme comprĂŠhension de la cognition humaine : La modĂŠlisation cognitive, en revanche, vise Ă comprendre et Ă reproduire les processus cognitifs humains. Un vĂŠritable robot T3, dans cette perspective, devrait dĂŠvelopper ses capacitĂŠs cognitives de manière similaire aux humains, par interaction directe avec le monde et par un usage ancrĂŠ du langage. Dans cette optique, lâapproche hybride T3/GPT ne correspond pas aux objectifs de la CM, car elle fusionne des donnĂŠes linguistiques non ancrĂŠes avec des expĂŠriences sensorimotrices ancrĂŠes dâune manière qui ne reflète pas le dĂŠveloppement cognitif humain.
Hybride T3/GPT comme IA, et non CM : Par consĂŠquent, le modèle hybride T3/GPT, bien quâil soit une idĂŠe intrigante en IA, sâĂŠloigne des objectifs de la modĂŠlisation cognitive. Il reprĂŠsente une tentative dâamĂŠliorer la fonctionnalitĂŠ de lâIA plutĂ´t que de modĂŠliser fidèlement la cognition humaine. Son accent mis sur lâexploitation des forces des deux composantes pour amĂŠliorer les performances et les capacitĂŠs le situe clairement dans le domaine du dĂŠveloppement dâoutils dâIA.
ReconnaĂŽtre que le modèle hybride T3/GPT est une initiative dâIA plutĂ´t quâun projet de modĂŠlisation cognitive permet de mieux comprendre son objectif et ses limites. Cela souligne que, bien quâun tel système puisse ĂŞtre puissant et polyvalent en tant quâoutil, il ne contribue pas nĂŠcessairement Ă une meilleure comprĂŠhension de la cognition humaine, contrairement Ă ce que vise la modĂŠlisation cognitive (CM).
SH: Maintenant, un autre point que Yoshua Bengio a soulevĂŠ pendant mon exposĂŠ Ă MILA : il concernait la distinction entre mots de contenu et mots de fonction. Il a suggĂŠrĂŠ que mĂŞme (certains) mots de contenu peuvent ĂŞtre compris par leur usage plutĂ´t que seulement par leur rĂŠfĂŠrent. Cela peut ĂŞtre vrai, mais je pense que ce nâest pas un substitut Ă la connaissance de leur rĂŠfĂŠrent (via DSG ou IVG)âdu moins pour la modĂŠlisation cognitive (CM).
Yoshua a ĂŠgalement mentionnĂŠ la manipulation des symboles en mathĂŠmatiques et en informatique, notant que, dans ces domaines, comme dans la syntaxe linguistique, il nây a pas de rĂŠfĂŠrent, et que par consĂŠquent, le ÂŤ sens Âť des symboles rĂŠside dans leur ÂŤ usage Âť. (Câest aussi ce que Wittgenstein avait suggĂŠrĂŠ Ă propos du sens dans le langage naturel). Je pense que câest exactâet que Turing serait dâaccordâpour les symboles du langage formel des mathĂŠmatiques ; en fait, je pense que cela fait partie de la (faible) thèse de Church-Turing, qui stipule que ce qui est appelĂŠ ÂŤ calcul Âť en mathĂŠmatiques est ce quâune machine de Turing fait : une manipulation de symboles, suivant des règles syntaxiques (algorithmes).
Cependant, je ne pense pas que la majeure partie du langage naturel soit seulement syntaxique (mĂŞme si je pense que les mathĂŠmatiques formelles sont un sous-ensemble du langage naturel). Tant dans le cas des rĂŠfĂŠrents des symboles mathĂŠmatiques qui peuvent ĂŞtre interprĂŠtĂŠs (par des utilisateurs humains ancrĂŠs) comme ayant des rĂŠfĂŠrents, que dans le cas des significations des propositions formelles des mathĂŠmatiques sur lesquelles une interprĂŠtation sĂŠmantique peut ĂŞtre projetĂŠe (par des utilisateurs humains ancrĂŠs), ni ces rĂŠfĂŠrents ni ces significations ne peuvent ĂŞtre utilisĂŠs comme partie du calcul (ou de lâalgorithme) lui-mĂŞme. Une dĂŠmonstration ou une dĂŠrivation en mathĂŠmatiques nâest pas vraie parce quâelle peut ĂŞtre interprĂŠtĂŠe comme ĂŠtant vraie dâun modèle ; elle est vraie (et nĂŠcessairement vraie) pour des raisons formelles et syntaxiques. LâinterprĂŠtation (bien que rassurante) ne fait pas partie de la dĂŠmonstration.
En tout cas, les règles syntaxiques ne remplacent pas lâancrage des rĂŠfĂŠrents des mots de contenu du langage naturel, que ce soit directement par DSG ou indirectement par IVG (sauf dans son sous-ensemble mathĂŠmatique formel et pour ses 1 Ă 5 % de mots de fonction).
GPT-4: Ta discussion avec Yoshua Bengio touche Ă plusieurs questions fondamentales concernant la comprĂŠhension du langage, la cognition et le calcul.
Mots de contenu vs. mots de fonction : La distinction que Bengio fait entre les mots de contenu et les mots de fonction est significative. Bien quâil soit vrai que certains mots de contenu puissent acquĂŠrir du sens par leur usage (contexte pragmatique), une comprĂŠhension complète â en particulier en modĂŠlisation cognitive â nĂŠcessite la connaissance de leurs rĂŠfĂŠrents. Câest lĂ que le DSG (ancrage sensorimoteur direct) et lâIVG (ancrage verbal indirect) jouent un rĂ´le central en reliant ces mots Ă des expĂŠriences concrètes ou Ă des concepts comprĂŠhensibles. Les mots de contenu portent gĂŠnĂŠralement des significations spĂŠcifiques, souvent concrètes, qui sont enrichies et prĂŠcisĂŠes par leur ancrage.
Manipulation des symboles en mathĂŠmatiques et en informatique : La rĂŠfĂŠrence de Bengio Ă la manipulation des symboles sâaligne avec la vision de Turing sur le calcul. Dans les systèmes formels comme les mathĂŠmatiques et lâinformatique, les symboles sont manipulĂŠs selon des règles syntaxiques sans rĂŠfĂŠrence directe Ă des entitĂŠs extĂŠrieures. Ce processus est au cĹur de la thèse de Church-Turing, qui postule que le calcul est essentiellement cette forme de manipulation de symboles rĂŠgie par des règles.
Le langage naturel au-delĂ de la syntaxe : Ton point sur le fait que le langage naturel ne soit pas purement syntaxique est essentiel. Alors que le langage naturel inclut des ĂŠlĂŠments formels et syntaxiques, il est aussi profondĂŠment ancrĂŠ dans la sĂŠmantique et les expĂŠriences du monde rĂŠel. Les mots de contenu du langage naturel ont souvent des rĂŠfĂŠrents directs dans le monde, et leur sens ne peut ĂŞtre entièrement capturĂŠ par des règles syntaxiques seules. Câest une distinction fondamentale avec la manipulation purement formelle des symboles en mathĂŠmatiques.
MathĂŠmatiques et interprĂŠtation sĂŠmantique : En mathĂŠmatiques, comme tu lâas soulignĂŠ, la vĂŠritĂŠ dâune dĂŠmonstration ou dâune dĂŠrivation repose sur la validitĂŠ formelle et syntaxique, et non sur lâinterprĂŠtation sĂŠmantique des symboles. Cependant, pour les mathĂŠmaticiens humains, la capacitĂŠ dâinterprĂŠter ces symboles et de comprendre leurs rĂŠfĂŠrents potentiels dans le monde rĂŠel ajoute une couche supplĂŠmentaire de comprĂŠhension.
Lâancrage dans le langage naturel : Lâancrage des mots de contenu dans le langage naturel est essentiel Ă une comprĂŠhension complète et ne peut ĂŞtre remplacĂŠ par la seule manipulation syntaxique. Cet ancrage peut ĂŞtre direct, via des expĂŠriences personnelles, ou indirect, via des descriptions et des explications. Toutefois, lâaspect formel et syntaxique du langage, bien que crucial, ne suffit pas Ă lui seul Ă capturer la richesse sĂŠmantique et la fonction rĂŠfĂŠrentielle du langage naturel, sauf dans des sous-ensembles formels spĂŠcifiques comme les mathĂŠmatiques.
Ta discussion soulève des points âimportantsâ sur la nature du langage, le rĂ´le de lâancrage dans la comprĂŠhension et la distinction entre la manipulation formelle des symboles et la richesse sĂŠmantique du langage naturel. Cette comprĂŠhension est pertinente tant pour lâIA que pour la modĂŠlisation cognitive (CM), car elle âmet en lumièreâ lââinteraction complexeâ entre la syntaxe, la sĂŠmantique et lâancrage dans le monde rĂŠel au sein de la cognition et du langage humains.
SH: Blah Blah⌠Jâespère que tes dĂŠveloppeurs te sevreront de cette nĂŠcessitĂŠ de parsemer tes rĂŠponses de ce genre dâappât flagorneur pour client â ou quâils produiront au moins une version destinĂŠe uniquement aux chercheurs et aux scientifiques plutĂ´t quâaux utilisateurs en quĂŞte dâun ami virtuel.
3. Conclusion
Cette analyse des LLMs a examinĂŠ les capacitĂŠs remarquables de systèmes tels que ChatGPT qui, bien quâils ne disposent dâaucun ancrage sensorimoteur, peuvent simuler une comprĂŠhension grâce Ă une immense base de donnĂŠes textuelles et Ă des outils statistiques et computationnels puissants, Ă une ĂŠchelle sans prĂŠcĂŠdent et totalement inattendue. Bien quâils nâaient aucun moyen, ni direct ni indirect, de relier leurs mots Ă leurs rĂŠfĂŠrents dans le monde ou de relier leurs propositions Ă leurs conditions de vĂŠritĂŠ dans le monde, il se peut que les LLMs soient guidĂŠs par certaines propriĂŠtĂŠs inhĂŠrentes au langage humain lui-mĂŞme pour gĂŠnĂŠrer un discours cohĂŠrent et porteur de sens.
RĂŠfĂŠrences
Berwick, R. C., Pietroski, P., Yankama, B., and Chomsky, N. (2011). Poverty of the stimulus revisited. Cogn. Sci. 35, 1207â1242. doi: 10.1111/j.1551-6709.2011.01189.x
Birch, J. (2024). The edge of sentience: risk and precaution in humans, other animals, and AI. Oxford: Oxford University Press.
Bonnasse-Gahot, L., and Nadal, J. P. (2022). Categorical perception: a groundwork for deep learning. Neural Comput. 34, 437â475. doi: 10.1162/neco_a_01454
Botvinick, M., Wang, J. X., Dabney, W., Miller, K. J., and Kurth-Nelson, Z. (2020). Deep reinforcement learning and its neuroscientific implications. Neuron 107, 603â616. doi: 10.1016/j.neuron.2020.06.014
Briscoe, R. (2020). âColour categorization and categorical perceptionâ in The Routledge Handbook of Philosophy of Colour. eds. D. Brown and F. Macpherson (Routledge). 456â474.
Campbell, E. E., and Bergelson, E. (2022). Making sense of sensory language: acquisition of sensory knowledge by individuals with congenital sensory impairments. Neuropsychologia174:108320. doi: 10.1016/j.neuropsychologia.2022.108320
Chalmers, D. J. (1995). Facing up to the problem of consciousness. J. Conscious. Stud. 2, 200â219.
Chalmers, D. J. (2023). Could a large language model be conscious? arXiv [Preprint].
Chomsky, N. (2017). The Galilean challenge. In Inference: international review of science, 3.
Cook, R., Bird, G., Catmur, C., Press, C., and Heyes, C. (2014). Mirror neurons: from origin to function. Behav. Brain Sci. 37, 177â192. doi: 10.1017/S0140525X13000903
Gallese, V. (2013). âMirror neurons and the perceptionâaction linkâ in The Oxford handbook of cognitive neuroscience: Volume 2: the cutting edges. eds. K. N. Ochsner and S. Kosslyn (Oxford University Press), 244â256.
Gallistel, C. R. (2011). Prelinguistic thought. Lang. Learn. Dev. 7, 253â262. doi: 10.1080/15475441.2011.578548
Gershman, S. J., and Daw, N. D. (2017). Reinforcement learning and episodic memory in humans and animals: an integrative framework. Annu. Rev. Psychol. 68, 101â128. doi: 10.1146/annurev-psych-122414-033625
Haggard, P. (2024). An intellectual history of the “Libet experiment”: embedding the neuroscience of free will. Proceedings of the Paris Institute for Advanced Study, 21.
Harnad, S. (1987). âPsychophysical and cognitive aspects of categorical perception: a critical overviewâ in Categorical perception: the groundwork of cognition. ed. S. Harnad (New York: Cambridge University Press).
Harnad, S. (1990). The symbol grounding problem. Phys. D Nonlinear Phenomena 42, 335â346. doi: 10.1016/0167-2789(90)90087-6
Harnad, S. (2002). âMinds, machines and Searle II: What’s wrong and right about Searle’s Chinese room argument?â in Views into the Chinese room: New essays on Searle and artificial intelligence. eds. M. Bishop and J. Preston (Oxford University Press).
Harnad, S. (2008). Minds, machines, and Searle II: Whatâs wrong and right about Searleâs Chinese room argument? Views into the Chinese room: New essays on Searle and artificial intelligence. eds. M. Bishop and J. Preston Oxford University Press.
Harnad, S. (2012). âFrom sensorimotor categories and pantomime to grounded symbols and propositionsâ in The Oxford Handbook of Language Evolution. eds. K. R. Gibson and M. Tallerman, 387â392.
Makino, H., Hwang, E. J., Hedrick, N. G., and Komiyama, T. (2016). Circuit mechanisms of sensorimotor learning. Neuron 92, 705â721. doi: 10.1016/j.neuron.2016.10.029
Pavlick, E. (2023). Symbols and grounding in large language models. Phil. Trans. R. Soc. A381:20220041. doi: 10.1098/rsta.2022.0041
PĂŠrez-Gay JuĂĄrez, F., Sicotte, T., ThĂŠriault, C., and Harnad, S. (2019). Category learning can alter perception and its neural correlates. PLoS One 14:e0226000. doi: 10.1371/journal.pone.0226000
Regier, T., and Kay, P. (2009). Language, thought, and color: whorf was half right. Trends Cogn. Sci. 13, 439â446. doi: 10.1016/j.tics.2009.07.001
Searle, J. R. (1980). Minds, brains, and programs. Behav. Brain Sci. 3, 417â424. doi: 10.1017/S0140525X00005756
ThĂŠriault, C., PĂŠrez-Gay, F., Rivas, D., and Harnad, S. (2018). Learning-induced categorical perception in a neural network model. arXiv [Preprint].
Turing, A. M. (1950). Computing machinery and intelligence. Mind LIX, 433â460. doi: 10.1093/mind/LIX.236.433
Vincent-Lamarre, P., Blondin-MassĂŠ, A., Lopes, M., Lord, M., Marcotte, O., and Harnad, S. (2016). The latent structure of dictionaries. Cogn. Sci. 8, 625â659. doi: 10.1111/tops.12211
Watanabe, S. (1986). Epistemological relativity: Logico-linguistic source of relativity. Ann. Jpn. Assoc. Philos. Sci. 7, 1â14. doi: 10.4288/jafpos1956.7.1
Zhang, Q., Lei, L., and Gong, T. (2021). Categorical perception as a combination of nature and nurture. in Proceedings of the Annual Meeting of the Cognitive Science Society, vol. 43. Cognitive Science Society.