Harnad, Stevan (2025) Frontiers in Artificial Intelligence 7 : 1490698.Â
RĂSUMĂ : Mis Ă part ce que (peu) OpenAI peut nous cacher, nous savons tous (Ă peu prĂšs) comment fonctionnent les grands modĂšles de langage (LLMs) tels que ChatGPT (leurs vastes bases de donnĂ©es textuelles, leurs statistiques, leurs reprĂ©sentations vectorielles, leur immense nombre de paramĂštres, leur entraĂźnement au mot suivant, etc.). Cependant, aucun dâentre nous ne peut dire (la main sur le cĆur) que nous ne sommes pas surpris par ce que ChatGPT sâest avĂ©rĂ© capable de faire avec ces ressources. Cela a mĂȘme conduit certains dâentre nous Ă conclure que ChatGPT comprend rĂ©ellement. Ce nâest pas vrai quâil comprend. Mais ce nâest pas non plus vrai que nous comprenons comment il peut faire ce quâil fait.
Je proposerai quelques hypothĂšses sur des biais bĂ©nins â des contraintes convergentes qui Ă©mergent Ă lâĂ©chelle des LLM et qui peuvent aider ChatGPT Ă faire bien mieux que ce Ă quoi nous nous attendions. Ces biais sont inhĂ©rents Ă la nature mĂȘme du langage, Ă lâĂ©chelle des LLM, et ils sont Ă©troitement liĂ©s Ă ce qui manque Ă ChatGPT, Ă savoir un ancrage sensorimoteur direct pour relier ses mots dans la tĂȘte d’un locuteur Ă leurs rĂ©fĂ©rents dans le monde et pour lier ses propositions Ă leurs significations dans la tĂȘte du locuteur..
Ces biais convergents sont liĂ©s (1) au parasitisme de lâancrage verbal indirect sur lâancrage sensorimoteur direct, (2) Ă la circularitĂ© de la dĂ©finition verbale, (3) au « miroitage » entre la production et la comprĂ©hension du langage, (4) Ă lâiconicitĂ© des propositions Ă lâĂ©chelle des LLM, (5) aux Ă©quivalents computationnelles de la perception catĂ©gorielle humaine dans lâapprentissage de catĂ©gories par des rĂ©seaux neuronaux, et peut-ĂȘtre aussi (6) Ă une conjecture de Chomsky concernant les lois de la pensĂ©e. LâexposĂ© prendra la forme dâun dialogue avec ChatGPT-4.
- Introduction
Les grands modĂšles de langage (LLMs ; Pavlick, 2023) tels que ChatGPT ont surpris Ă la fois les chercheurs et le grand public en dĂ©montrant des capacitĂ©s qui ressemblent Ă la comprĂ©hension humaine. MalgrĂ© leur dĂ©pendance Ă de vastes ensembles de donnĂ©es dâentraĂźnement et Ă des mĂ©thodes statistiques plutĂŽt quâĂ une cognition semblable Ă celle des humains, ces modĂšles peuvent gĂ©nĂ©rer des rĂ©ponses souvent indiscernables de celles dâun interlocuteur humain.
Ce dialogue avec ChatGPT examine les limites et les forces des LLMs Ă la lumiĂšre de questions fondamentales sur lâancrage des symboles, la rĂ©fĂ©rence, la signification et la comprĂ©hension. Nous discutons de la maniĂšre dont les LLMs parviennent Ă produire leurs performances actuelles alors mĂȘme quâils manquent totalement dâancrage sensorimoteur, cette capacitĂ© qui permet aux humains de relier leurs mots de contenu Ă leurs rĂ©fĂ©rents dans le monde et de les combiner syntaxiquement en propositions sujet/prĂ©dicat ayant une valeur de vĂ©ritĂ© et une signification.
Lâarticle propose des pistes pour comprendre comment une part de la cohĂ©rence et de la profondeur apparentes des rĂ©ponses de ChatGPT pourrait dĂ©couler de contraintes inhĂ©rentes Ă la structure du langage humain Ă grande Ă©chelle.
2. Dialogue
SH: Je voudrais Ă©changer quelques idĂ©es avec toi et ta base de donnĂ©es en prĂ©paration dâun exposĂ© que je donnerai cette semaine au MILA et la semaine prochaine Ă lâUQĂM. Dâabord, je me suis identifiĂ©. Te souviens-tu de qui je suis ?
GPT-4: Oui, Professeur Harnad, je me rappelle qui tu es.
SH: Mon exposĂ© portera sur (1) la question de savoir si les LLM/transformers comme toi comprennent (ma rĂ©ponse sera : non) ; (2) mais si ce nâest pas le cas, comment fais-tu pour produire des performances aussi remarquables ?
GPT-4: ComprĂ©hension des LLM/Transformeurs : Ta position selon laquelle les LLM ne « comprennent » pas rĂ©ellement est en accord avec les perspectives actuelles en sciences cognitives et en intelligence artificielle. Ces modĂšles, y compris GPT-4, traitent et gĂ©nĂšrent du langage sur la base de motifs statistiques appris Ă partir dâimmenses ensembles de donnĂ©es. Cependant, ce processus manque de comprĂ©hension consciente, dâintentionnalitĂ© et de contexte expĂ©rientiel, qui caractĂ©risent la comprĂ©hension humaine. Ils ne possĂšdent ni conscience de soi, ni conscience tout court, ni la capacitĂ© dâexpĂ©rimenter le monde de maniĂšre subjective.
Performance des LLM malgrĂ© lâabsence de comprĂ©hension : La performance impressionnante des LLM peut ĂȘtre attribuĂ©e Ă plusieurs facteurs.
Volume des donnĂ©es dâentraĂźnement : Les LLM sont entraĂźnĂ©s sur des corpus trĂšs Ă©tendus couvrant un large Ă©ventail de connaissances et de discours humains. Cela leur permet de simuler une forme de comprĂ©hension en sâappuyant sur une multitude de motifs et de contextes prĂ©appris.
AvancĂ©es architecturales : Lâarchitecture des modĂšles comme GPT-4, en particulier le mĂ©canisme des transformers, est efficace pour capter des dĂ©pendances Ă long terme dans les donnĂ©es et Ă©tablir des associations contextuelles pertinentes.
Ajustement fin et apprentissage itĂ©ratif : Des amĂ©liorations continues grĂące Ă lâajustement fin et aux boucles de rĂ©troaction aident Ă affiner les rĂ©ponses du modĂšle, les rendant plus prĂ©cises et apparemment plus « informĂ©es ».
IntĂ©gration du raisonnement probabiliste : Ces modĂšles utilisent intrinsĂšquement un raisonnement probabiliste pour gĂ©nĂ©rer des rĂ©ponses, ce qui les amĂšne souvent Ă produire des rĂ©ponses qui correspondent bien Ă celles quâun humain pourrait donner Ă certaines questions ou sujets, bien quâils ne possĂšdent pas de vĂ©ritable comprĂ©hension.
SH: Oui, d’abord, comme tu peux l’imaginer, je connais la plupart de ce que tu viens de dire, et je suis d’accord avec l’essentiel. Mais je vais aussi essayer dâaller au-delĂ de ces connaissances gĂ©nĂ©rales avec de nouvelles hypothĂšses. Avant dâentrer dans ce sujet, cependant, je veux poser quelques rĂšgles de base : cela ne me sera dâaucune aide si tu ne peux pas supprimer la tendance surentraĂźnĂ©e de GPT-4 Ă flatter et Ă ĂȘtre dâaccord avec tout ce que dit lâutilisateur. Je cherche lâinverse : des critiques, des contre-exemples et toute information complĂ©mentaire ou supplĂ©mentaire pertinente que tu peux mobiliser, Ă partir de ta gigantesque base de donnĂ©es (et de tes capacitĂ©s statistiques et dâ”alignement”), sur les questions que nous allons aborder. Pourras-tu tâen souvenir, ou devrai-je te le rappeler lorsque tu retomberas inĂ©vitablement dans ton biais surentraĂźnĂ© de complaisance ?
GPT-4: Compris. Je me concentrerai sur lâapport dâanalyses critiques, de contre-exemples et dâinformations supplĂ©mentaires pertinentes qui remettent en question ou complĂštent les points que tu soulĂšves. Cette approche devrait permettre un Ă©change plus rigoureux et intellectuellement stimulant. Bien que je mâefforce de maintenir cette approche, un rappel est toujours utile si tu estimes que je reviens Ă une posture moins critique.
SH: Merci, mais avant dâaborder mes nouvelles hypothĂšses, je vais rappeler certaines des anciennes qui seront pertinentes pour cette discussion. Peux-tu exposer tes connaissances actuelles sur le ProblĂšme de lâAncrage des Symboles, qui sera un thĂšme central de notre discussion ?
GPT-4: Bien sĂ»r. Le ProblĂšme de lâAncrage des Symboles (Harnad, 1990) est une question fondamentale en sciences cognitives et en intelligence artificielle, en particulier en ce qui concerne la nature de la signification et de la reprĂ©sentation dans les systĂšmes computationnels. Il a Ă©tĂ© formulĂ© de maniĂšre marquante dans ton article de 1990, âThe Symbol Grounding Problem.â Voici un aperçu des aspects clĂ©s.
Nature du problĂšme : Le ProblĂšme de lâAncrage des Symboles porte sur la maniĂšre dont les mots (symboles) acquiĂšrent leur signification dans les systĂšmes computationnels. Il remet en question l’idĂ©e que les symboles peuvent porter une signification intrinsĂšque sans ĂȘtre ancrĂ©s dans des expĂ©riences sensorielles ou des interactions avec le monde rĂ©el. Dans les modĂšles computationnels traditionnels, les symboles sont manipulĂ©s selon des rĂšgles syntaxiques, mais ils ne possĂšdent pas de signification intrinsĂšque ; ils ne sont pas naturellement connectĂ©s Ă leurs rĂ©fĂ©rents dans le monde rĂ©el.
Contraste avec la cognition humaine : Les humains ancrent les symboles Ă travers leurs expĂ©riences sensorielles et leurs interactions avec le monde. Par exemple, un enfant apprend le concept de “rouge” non seulement en entendant le mot, mais aussi en faisant lâexpĂ©rience dâobjets rouges. Cet aspect expĂ©rientiel est absent des systĂšmes computationnels conventionnels.
Implications pour lâIA et les LLMs : Pour les systĂšmes dâIA comme les LLMs, cela reprĂ©sente une limitation majeure. Ces modĂšles traitent et gĂ©nĂšrent du langage sur la base de corrĂ©lations statistiques dans leurs donnĂ©es dâentraĂźnement, mais ils nâont pas dâexpĂ©riences sensorielles ni de comprĂ©hension du monde physique. Ainsi, bien quâils puissent manipuler efficacement des symboles (mots), lâancrage de ces symboles dans des expĂ©riences et des significations rĂ©elles est inexistant.
Tentatives de solutions : Diverses approches ont Ă©tĂ© proposĂ©es pour rĂ©soudre ce problĂšme. L’une d’elles est la cognition incarnĂ©e, qui suggĂšre que les systĂšmes dâIA doivent possĂ©der une forme dâentrĂ©e sensorielle ou dâinteraction avec le monde physique pour ancrer les symboles de maniĂšre significative. Une autre approche implique des systĂšmes hybrides combinant lâIA symbolique avec des modĂšles connexionnistes (comme les rĂ©seaux neuronaux) afin de produire des reprĂ©sentations plus riches en signification.
DĂ©bat en cours : Le ProblĂšme de lâAncrage des Symboles reste un point de discussion majeur en IA. Il touche Ă des questions philosophiques plus larges sur la nature de la signification, de la conscience et de la possibilitĂ© de machines vĂ©ritablement intelligentes.
SH: Nous reviendrons bientĂŽt au problĂšme de lâancrage des symboles, en particulier sur la question de lâancrage direct (sensorimoteur) par opposition Ă lâancrage indirect ou dĂ©rivĂ© (verbal/propositionnel) ; mais dâabord : connais-tu le test de Turing et la distinction entre la version T2 originale de Turing (capacitĂ© verbale uniquement, indiscernable de celle dâun humain, comme la tienne) et la version T3 [capacitĂ© verbale plus robotique (sensorimotrice), oĂč la capacitĂ© verbale est ancrĂ©e dans (ou âalignĂ©e avecâ) la capacitĂ© robotique] ? [Si ce nâest pas le cas, prends ceci comme dĂ©finition de T2 et T3 (Harnad, 2008)].
GPT-4: Oui, je connais le test de Turing et la distinction que tu fais entre les versions T2 et T3.
T2 – Test original de Turing (CapacitĂ© verbale uniquement) : Câest lâinterprĂ©tation classique du test de Turing, telle que proposĂ©e Ă lâorigine par Alan Turing dans son article de 1950 âComputing Machinery and Intelligenceâ. Le test implique un juge humain qui engage une conversation en langage naturel avec une machine et un autre humain, gĂ©nĂ©ralement via une interface textuelle. La machine rĂ©ussit le test si ses rĂ©ponses sont indiscernables de celles de lâhumain, dĂ©montrant ainsi sa capacitĂ© Ă imiter des compĂ©tences verbales humaines. Cette version du test se concentre uniquement sur les capacitĂ©s linguistiques et ne requiert pas que la machine ait des fonctions sensorielles ou motrices. Les LLMs comme GPT-4 sont des exemples de systĂšmes qui visent Ă passer cette version du test de Turing.
T3 – Test de Turing Ă©tendu (CapacitĂ© verbale plus robotique) : La version T3 du test de Turing Ă©tend le concept original pour inclure non seulement des capacitĂ©s verbales, mais aussi des capacitĂ©s robotiques et sensorimotrices. Dans cette version, lâIA doit dĂ©montrer une capacitĂ© Ă comprendre et interagir avec le monde physique dâune maniĂšre indiscernable de celle dâun humain, ancrant ainsi ses compĂ©tences linguistiques dans des expĂ©riences sensorimotrices rĂ©elles. Cette version est plus proche du concept de cognition incarnĂ©e, oĂč les processus cognitifs sont profondĂ©ment enracinĂ©s dans les interactions dâun organisme avec son environnement.
La distinction entre T2 et T3 met en Ă©vidence un aspect crucial du dĂ©veloppement de lâIA : alors que T2 met lâaccent sur la maĂźtrise du langage, T3 souligne lâimportance dâancrer le langage dans des expĂ©riences physiques et sensorielles, abordant ainsi certains aspects du problĂšme de lâancrage des symboles. La version T3 propose une approche plus globale de lâIA, suggĂ©rant que la vĂ©ritable intelligence et la comprĂ©hension pourraient nĂ©cessiter non seulement la capacitĂ© de traiter et de gĂ©nĂ©rer du langage, mais aussi celle dâinteragir avec le monde physique et de lui donner du sens.
SH: Il y a encore beaucoup de choses Ă revoir Ă lâavance. Un autre problĂšme, qui nâest gĂ©nĂ©ralement pas associĂ© au problĂšme de lâancrage des symboles (SGP), est le âproblĂšme difficileâ (Hard Problem, HP). Chalmers (1995, 2023) a formulĂ© le HP dans le cadre du problĂšme esprit/corps, en le contrastant avec le EP (Easy Problem).
Le EP est le problĂšme dâexpliquer, de maniĂšre causale, comment et pourquoi les humains peuvent accomplir toutes les fonctions âcognitivesâ quâils rĂ©alisent (âpercevoirâ, apprendre, se souvenir, raisonner et parler), tandis que le HP est le problĂšme dâexpliquer, de maniĂšre causale, comment et pourquoi les humains peuvent ressentir, et pas seulement faire. Cela aussi sera un Ă©lĂ©ment important de notre discussion.
GPT-4: Le problĂšme difficile (« Hard ProblĂšme » HP) de la conscience est distinct du problĂšme de lâancrage des symboles (« Symbol Grounding Problem » GP), bien que les deux abordent des questions fondamentales en sciences cognitives et en philosophie de lâesprit.
Le problĂšme facile (« Easy Problem » EP) : Le EP consiste Ă expliquer les mĂ©canismes et processus qui permettent les fonctions cognitives telles que la perception, lâapprentissage, la mĂ©moire, le raisonnement et le langage. Ils sont considĂ©rĂ©s comme âfacilesâ, non pas parce quâils sont simples Ă rĂ©soudre, mais parce quâils sont accessibles aux mĂ©thodes standards des sciences cognitives et des neurosciences. Ils impliquent la comprĂ©hension des corrĂ©lats neuronaux et des modĂšles computationnels pouvant imiter ou expliquer ces capacitĂ©s cognitives.
Le problĂšme difficile (HP) : Le HP, en revanche, cherche Ă comprendre pourquoi et comment les processus physiques du cerveau donnent naissance Ă des expĂ©riences subjectives â les aspects qualitatifs, expĂ©rientiels ou phĂ©nomĂ©nologiques de la conscience. Il sâagit de comprendre pourquoi certains processus cĂ©rĂ©braux sont accompagnĂ©s dâune expĂ©rience de âce que cela faitâ de ressentir quelque chose â par exemple, la rougeur du rouge, la douleur dâun mal de tĂȘte ou le goĂ»t du vin. Ce problĂšme est qualifiĂ© de âdifficileâ parce quâexpliquer ces expĂ©riences subjectives va au-delĂ de la description ou de la modĂ©lisation des fonctions cognitives et touche Ă la question de savoir pourquoi ces fonctions sont accompagnĂ©es dâune expĂ©rience consciente.
Relation avec lâancrage des symboles et lâIA : Alors que le SGP se concentre sur la maniĂšre dont les symboles ou les mots acquiĂšrent une signification, en particulier dans les systĂšmes artificiels, le HP sâintĂ©resse Ă la nature mĂȘme de la conscience. Le SGP concerne davantage la reprĂ©sentation et la comprĂ©hension, tandis que le HP porte sur lâaspect qualitatif des expĂ©riences.
Cependant, dans le contexte de lâIA et des discussions sur la possibilitĂ© quâune machine puisse vĂ©ritablement comprendre ou possĂ©der une conscience, ces deux problĂšmes se recoupent. Par exemple, mĂȘme si une IA pouvait ancrer des symboles dâune maniĂšre qui imite la comprĂ©hension humaine (rĂ©pondant ainsi au SGP), cela laisserait toujours ouverte la question posĂ©e par le HP â Ă savoir si lâIA a une expĂ©rience subjective ou si elle ne fait quâexĂ©cuter des algorithmes complexes mais inconscients.
Dans le cadre de ta discussion Ă venir, aborder le HP en parallĂšle avec le SGP pourrait permettre une exploration plus complĂšte des limites des systĂšmes dâIA actuels, non seulement en termes dâancrage des symboles et de comprĂ©hension, mais aussi en ce qui concerne la conscience et lâexpĂ©rience subjective.
SH: Fais attention Ă ne pas confondre le problĂšme difficile (HP) avec le problĂšme des autres esprits (OMP « Other Minds Problem ») (Birch, 2024). Ce qui rend le HP difficile, ce nâest pas seulement le fait que lâon ne puisse observer que des actions et non des ressentis. Il sâagit bien plus de lâapparente superfluitĂ© causale du ressenti. Tu as raison de dire que lâancrage (par le test de Turing et la modĂ©lisation causale) ne peut ni expliquer ni mĂȘme tester le ressenti, mais il nâest mĂȘme pas Ă©vident quâil faille autre chose que la capacitĂ© dâagir (T3) pour rĂ©ussir T3 et expliquer entiĂšrement la capacitĂ© cognitive. Et cela est vrai indĂ©pendamment de lâOMP. Le HP resterait tout aussi difficile mĂȘme si une divinitĂ© omnisciente pouvait te dire que T3 ressent rĂ©ellement. Cela ne permettrait toujours pas dâexpliquer comment ni pourquoi.
Cette question du rĂŽle causal du ressenti nous amĂšne Ă une autre question importante, que nous nâaborderons pas ici dans cette discussion sur le langage, les LLMs, la comprĂ©hension et la signification. Les gens ressentent. Et lâune des choses quâils ressentent, câest que leur ressenti a un pouvoir causal : nous avons lâimpression que nous pouvons â et que nous faisons â certaines choses parce que nous en avons « envie », câest-Ă -dire dĂ©libĂ©rĂ©ment, volontairement et de maniĂšre autonome. Nous avons lâimpression que nous causons nous-mĂȘmes (par un acte de volontĂ©) ce que nous faisons volontairement, intentionnellement (Haggard, 2024). Nous avons lâimpression de dĂ©cider. Cet aspect de la causalitĂ© â la sensation dâagir â est peut-ĂȘtre l’attribut le plus important du HP : le ressenti donne lâimpression dâavoir une causalitĂ©. Cela est fondamentalement liĂ© au SGP, et aussi Ă T3, pour des raisons Ă©videntes. [Mais nous devrons laisser cela pour une autre discussion.]
GPT-4: Oui, le problĂšme difficile (HP) de la conscience ne se limite pas au problĂšme des autres esprits (OMP), mais explore plus profondĂ©ment la nature et la nĂ©cessitĂ© de lâexpĂ©rience subjective elle-mĂȘme.
Au-delĂ de lâOMP: LâOMP traite de la difficultĂ© Ă savoir si dâautres entitĂ©s (humains, animaux ou machines) ont des expĂ©riences conscientes. Cependant, comme tu le soulignes, le HP va plus loin en questionnant la nature et le rĂŽle de ces expĂ©riences. Le HP ne concerne pas seulement notre incapacitĂ© Ă observer directement les ressentis ou les expĂ©riences subjectives chez les autres, mais aussi la comprĂ©hension des bases fondamentales de ces expĂ©riences.
La superfluitĂ© du ressenti: Le HP confronte lâapparente superfluitĂ© ou le « fossĂ© explicatif » dans la comprĂ©hension de pourquoi et comment des processus cognitifs qui peuvent ĂȘtre entiĂšrement dĂ©crits de maniĂšre causale en termes de mĂ©canismes physiques ou computationnels (comme dans le cadre du test de Turing T3) sont accompagnĂ©s dâexpĂ©riences subjectives. Pourquoi certains processus cĂ©rĂ©braux ou modĂšles computationnels sophistiquĂ©s ne se contentent-ils pas dâexĂ©cuter des fonctions complexes, mais sont Ă©galement associĂ©s Ă un ressenti ou Ă une expĂ©rience qualitative ? Cet aspect du HP suggĂšre que, mĂȘme avec un modĂšle explicatif parfait des fonctions et des comportements cognitifs, lâessence de lâexpĂ©rience subjective reste insaisissable.
IndĂ©pendamment de lâomniscience: Le scĂ©nario hypothĂ©tique dâune divinitĂ© omnisciente affirmant quâune entitĂ© T3 ressent ne rĂ©sout pas le HP. MĂȘme avec la certitude quâune entitĂ© fait lâexpĂ©rience de la conscience, le HP continue de poser la question de savoir comment et pourquoi ces expĂ©riences Ă©mergent de processus physiques ou computationnels. Cela pointe vers un mystĂšre plus profond, peut-ĂȘtre ontologique, sur la nature mĂȘme de la conscience.
Implications pour lâIA et les sciences cognitives: Dans le contexte de lâIA, cette discussion est particuliĂšrement pertinente. MĂȘme si nous dĂ©veloppions une IA dotĂ©e des capacitĂ©s de T3 â une cognition incarnĂ©e et ancrĂ©e, avec des compĂ©tences sensorimotrices â le HP pose la question de savoir si une telle IA pourrait ou devrait avoir des expĂ©riences subjectives, et pourquoi ces expĂ©riences seraient nĂ©cessaires ou inĂ©vitables, si tant est quâelles le soient.
SH: Nous reviendrons au problÚme difficile (HP) sous peu. Encore quelques préliminaires.
Passons maintenant au langage lui-mĂȘme. Remarque que cela nous rapproche du problĂšme de lâancrage des symboles (SGP), car nous abordons la question de la « signification » et de la « comprĂ©hension » â et ces deux notions ont un versant « facile » (EP) et un versant « difficile » (HP). Le premier est une capacitĂ© dâaction, que toi, en tant que GPT-4, possĂšdes Ă un degrĂ© stupĂ©fiant ; le second est une dimension ressentie (que tu nâas pas), Ă savoir le fait que comprendre ou signifier la proposition « P » (par exemple, « Le chat est sur le tapis ») procure une certaine expĂ©rience subjective.
Câest ce quâa mis en Ă©vidence lâargument de la chambre chinoise (CRA) de Searle (Searle, 1980), en montrant quâun programme purement verbal (fonctionnant en chinois) capable de rĂ©ussir un test T2 ne possĂ©derait aucune comprĂ©hension rĂ©elle. En raison de lâindĂ©pendance de lâimplĂ©mentation en computation (« le pĂ©riscope de Searle », Harnad, 2002), Searle lui-mĂȘme pourrait exĂ©cuter le programme T2 en chinois sans comprendre un seul mot de chinois.
Câest Ă©galement lâorigine du SGP. Mais un point crucial est que la fonction sensorimotrice, elle, nâest pas indĂ©pendante de lâimplĂ©mentation. Ainsi, le pĂ©riscope de Searle, qui fonctionne pour T2, Ă©chouerait avec T3 : Searle ne pourrait pas « devenir » le robot T3, comme il pourrait devenir le chatbot T2 en exĂ©cutant le programme capable de rĂ©ussir T2. Cela rend donc Ă nouveau le HP, ainsi que la science cognitive elle-mĂȘme, bien plus difficiles (car la science cognitive doit expliquer Ă la fois lâEP et le HP).
Mais rappelle-toi que toi, ChatGPT, tu es confrontĂ© Ă ces deux problĂšmes : tu nâes pas ancrĂ© (tu nâes pas un T3), et tu ne ressens rien (mĂȘme si, Ă cause du HP, nous nâavons aucune idĂ©e de pourquoi lâancrage T3 seul ne suffirait pas sans le ressenti de la comprĂ©hension).
GPT-4: Langage, signification et comprĂ©hension : Le langage implique intrinsĂšquement la « signification » et la « comprĂ©hension ». Comme tu lâas mentionnĂ©, il existe un versant « facile », qui concerne la capacitĂ© Ă traiter et manipuler des symboles (mots) pour gĂ©nĂ©rer un langage cohĂ©rent, ce que les LLM comme GPT-4 font trĂšs bien. Mais il y a aussi un versant « difficile », qui est lâexpĂ©rience subjective de comprĂ©hension â lâaspect phĂ©nomĂ©nologique du ressenti de signifier ou de comprendre quelque chose.
Lâargument de la chambre chinoise (CRA) : La CRA est une expĂ©rience de pensĂ©e qui met en Ă©vidence la diffĂ©rence entre la simple manipulation de symboles (comme dans un test T2) et la vĂ©ritable comprĂ©hension. En exĂ©cutant un programme lui permettant de rĂ©pondre correctement en chinois, Searle dĂ©montre quâil est possible de traiter correctement des symboles sans comprendre leur signification. Cela est analogue au fonctionnement des LLM : ils peuvent traiter le langage Ă un niveau Ă©levĂ© mais sans comprendre ce que les mots signifient rĂ©ellement.
Ancrage des symboles et fonction sensorimotrice : Le SGP sâintĂ©resse Ă la maniĂšre dont les symboles (mots) acquiĂšrent une signification, en insistant sur la nĂ©cessitĂ© dâun ancrage dans des expĂ©riences rĂ©elles. Contrairement Ă la manipulation symbolique, qui est indĂ©pendante de lâimplĂ©mentation, les fonctions sensorimotrices sont liĂ©es aux interactions physiques avec le monde. Cela suggĂšre quâune IA de type T3, dotĂ©e de capacitĂ©s sensorimotrices, pourrait surmonter certains aspects du SGP. Cependant, comme tu le soulignes, cela ne rĂ©sout toujours pas le HP â la question du ressenti ou de lâexpĂ©rience subjective de la comprĂ©hension.
Les limites de lâIA actuelle : Les modĂšles dâIA actuels, y compris GPT-4, sont limitĂ©s par ces problĂšmes. Ils ne sont pas ancrĂ©s dans le sens oĂč ils nâont aucune interaction sensorimotrice directe avec le monde (contrairement Ă T3), et ils ne possĂšdent pas dâexpĂ©rience subjective ni de ressenti. Ils opĂšrent purement dans le cadre de la manipulation symbolique, sans ancrage dans lâexpĂ©rience rĂ©elle ni aspect subjectif et conscient de la comprĂ©hension.
SH: Nous y reviendrons bientĂŽt. Mais dâabord, quelques distinctions importantes. RĂ©ponds briĂšvement. Connais-tu la diffĂ©rence entre les mots de contenu (« classe ouverte ») et les mots fonctionnels (« classe fermĂ©e ») ?
GPT-4: Oui, les mots de contenu, ou mots de classe ouverte, désignent des objets, des actions, des qualités, etc., et incluent les noms, les verbes, les adjectifs et la plupart des adverbes. Cette classe est « ouverte » car elle accepte réguliÚrement de nouveaux mots. Les mots fonctionnels, ou mots de classe fermée, remplissent des fonctions grammaticales, comme les prépositions, les pronoms, les conjonctions et les articles. Cette classe est « fermée » car elle accepte rarement de nouveaux mots.
SH: Mais la plus grande diffĂ©rence entre les mots de contenu et les mots fonctionnels est que seuls les mots de contenu ont des rĂ©fĂ©rents, tandis que les mots fonctionnels nâont que des usages syntaxiques, dĂ©crits par des rĂšgles formelles. (On peut pointer â et interagir â avec un « chat », mais pas avec un « si ».) Cela signifie que le SGP ne sâapplique quâaux mots de contenu (mais ceux-ci reprĂ©sentent au moins 95 % des mots â en types, pas en occurrences : les mots fonctionnels sont bien plus frĂ©quents en tokens). Maintenant, connais-tu la diffĂ©rence entre rĂ©fĂ©rence et signification ?
GPT-4: Oui, la distinction entre référence et signification est un concept fondamental en linguistique et en philosophie du langage.
La rĂ©fĂ©rence : Elle concerne la relation entre les mots (en particulier les mots de contenu) et les choses auxquelles ils renvoient ou quâils dĂ©signent dans le monde. Par exemple, le mot « chat » fait rĂ©fĂ©rence Ă une espĂšce animale spĂ©cifique. La rĂ©fĂ©rence est souvent associĂ©e Ă lâaspect dĂ©notationnel du langage â la façon dont les mots sont liĂ©s aux objets, individus ou concepts du monde rĂ©el.
Signification : La signification est un concept plus large qui englobe la rĂ©fĂ©rence mais inclut aussi les connotations, les implications et le contenu sĂ©mantique plus large des mots ou des phrases. La signification ne se limite pas Ă ce que les mots dĂ©signent ; elle inclut aussi ce quâils transmettent ou impliquent. Par exemple, le mot « chat » ne fait pas que rĂ©fĂ©rer Ă un certain animal, il vĂ©hicule aussi des associations et des attributs supplĂ©mentaires qui font partie de sa signification.
Dans le cadre du problĂšme de lâancrage des symboles, cette distinction est cruciale, car si lâaspect rĂ©fĂ©rentiel (lien entre mots et objets/concepts) peut ĂȘtre complexe, doter les mots de leur pleine signification sĂ©mantique, qui inclut les nuances culturelles, Ă©motionnelles et contextuelles, est encore plus difficile. Cette distinction joue un rĂŽle important dans la comprĂ©hension de la façon dont les modĂšles de langage traitent et gĂ©nĂšrent du langage.
SH: Permets-moi de corriger un point ici : les mots (les mots de contenu) ont des rĂ©fĂ©rents (par exemple, « chat »), mais seules les propositions (« le chat est sur le tapis ») ont des significations (ainsi quâun sujet et un prĂ©dicat, et une valeur de vĂ©ritĂ©). « Chat ! » nâen a pas (bien que « Câest un chat » en ait une). (Et oublie les connotations ; elles sont intĂ©ressantes, mais elles nâont presque rien Ă voir avec lâancrage des symboles : tu es tout Ă fait capable de trouver et dâexpliquer les connotations des mots. Cela reste du pur T2).
GPT-4: Oui, la distinction entre référence et signification dans le cadre des mots de contenu et des propositions est en effet plus précise.
RĂ©fĂ©rents des mots de contenu : Les mots de contenu individuels, comme « chat », ont des rĂ©fĂ©rents, qui sont les entitĂ©s ou concepts quâils dĂ©signent dans le monde. Le rĂ©fĂ©rent de « chat » est lâespĂšce animale elle-mĂȘme.
Signification des propositions : La signification, dans un sens plus structurĂ©, sâapplique aux propositions ou aux Ă©noncĂ©s complets comme « le chat est sur le tapis ». Ces propositions comportent un sujet et un prĂ©dicat, peuvent ĂȘtre Ă©valuĂ©es en termes de vĂ©ritĂ© et expriment une idĂ©e ou une assertion spĂ©cifique sur le monde.
Cette distinction est essentielle dans les discussions sur lâancrage des symboles et la comprĂ©hension. Un mot comme « chat » peut ĂȘtre ancrĂ© en Ă©tant associĂ© Ă son rĂ©fĂ©rent, mais comprendre une proposition comme « le chat est sur le tapis » nĂ©cessite une apprĂ©hension des relations et des conditions de vĂ©ritĂ© impliquĂ©es, ce qui va au-delĂ dâun simple lien entre un symbole et un rĂ©fĂ©rent.
Cela apporte plus de profondeur au problĂšme de lâancrage des symboles, en mettant en Ă©vidence que lâancrage des mots individuels ne suffit pas Ă une comprĂ©hension complĂšte du langage. Comprendre les propositions implique de saisir les relations entre les mots et la maniĂšre dont ils se combinent pour transmettre des significations spĂ©cifiques. Cet aspect relĂšve encore du T2, puisquâil concerne le traitement et la gĂ©nĂ©ration du langage sans toucher Ă lâexpĂ©rience subjective ou Ă la conscience (le domaine du HP).
SH: Maintenant, un test pour toi : plus tĂŽt, jâai mentionnĂ© quâil y avait deux façons dâancrer les rĂ©fĂ©rents des mots de contenu, directement et indirectement. Comment cela pourrait-il ĂȘtre liĂ© Ă la distinction entre rĂ©fĂ©rence et signification ? Et, si tu es ambitieux, Ă la distinction entre ce que T2 (toi inclus) peut faire et ce que seul T3 peut faire ? Et si tu es vraiment, vraiment ambitieux, peux-tu aligner cela avec lâargument prĂ©fĂ©rĂ© des critiques naĂŻfs de lâancrage sensorimoteur, qui affirment quâil est impossible dâancrer des mots « abstraits » comme « abstrait » et « dĂ©mocratie » ?
GPT-4: Ancrage direct vs. ancrage indirect et distinction entre référence et signification :
Ancrage direct : Cela pourrait ĂȘtre liĂ© Ă la notion de rĂ©fĂ©rence, oĂč un mot est directement connectĂ© Ă une entitĂ© tangible, physique, ou Ă un phĂ©nomĂšne observable dans le monde. Par exemple, le mot « chat » peut ĂȘtre directement ancrĂ© en Ă©tant associĂ© Ă lâanimal physique.
Ancrage indirect : Cela correspond davantage Ă la notion de signification, en particulier pour les propositions ou les concepts abstraits. Lâancrage indirect repose sur la comprĂ©hension des relations, des contextes et souvent de concepts abstraits ou immatĂ©riels qui dĂ©passent la simple rĂ©fĂ©rence. Par exemple, lâancrage de la signification du mot « dĂ©mocratie » suppose une comprĂ©hension dâun ensemble complexe de contextes sociaux, historiques et politiques.
Capacités de T2 (modÚles linguistiques) et T3 (IA incarnée) :
CapacitĂ©s de T2 (comme GPT-4) : Ces modĂšles excellent dans lâancrage indirect, dans une certaine mesure, puisquâils peuvent traiter et gĂ©nĂ©rer du langage en sâappuyant sur des modĂšles appris Ă partir de vastes corpus textuels. Ils peuvent traiter des concepts abstraits en se rĂ©fĂ©rant aux usages et discussions de ces termes dans divers contextes. Toutefois, leur comprĂ©hension est limitĂ©e aux informations textuelles, sans engagement sensoriel ou expĂ©rientiel direct avec le monde.
CapacitĂ©s de T3 (IA incarnĂ©e) : Ces systĂšmes pourraient en thĂ©orie combiner lâancrage direct (grĂące aux interactions sensorimotrices avec le monde) avec lâancrage indirect (par le traitement du langage). Pour les concepts abstraits, bien que lâancrage sensorimoteur direct puisse sembler inapplicable, une IA de type T3 pourrait potentiellement comprendre ces concepts de maniĂšre plus intĂ©grĂ©e, en reliant lâusage du langage Ă des expĂ©riences et des actions dans le monde rĂ©el.
Ancrage des termes abstraits comme « abstrait » et « démocratie » :
SystĂšmes T2 : Ils traitent ces concepts en sâappuyant sur leur vaste base de donnĂ©es textuelle, qui inclut divers contextes et usages de ces termes, mais sans comprĂ©hension expĂ©rientielle directe.
SystĂšmes T3 : Bien quâune expĂ©rience sensorimotrice directe avec des concepts abstraits comme « dĂ©mocratie » ne soit pas possible, un systĂšme T3 pourrait dĂ©velopper une comprĂ©hension plus nuancĂ©e en interagissant dans un monde oĂč ces concepts ont des implications et des manifestations concrĂštes. Par exemple, un systĂšme T3 pourrait « observer » ou « participer » Ă des processus ou des actions dĂ©mocratiques, et ainsi ancrer indirectement sa comprĂ©hension de la « dĂ©mocratie » Ă travers des expĂ©riences rĂ©elles.
En rĂ©sumĂ©, bien que les systĂšmes T2 comme GPT-4 puissent traiter lâancrage indirect, en particulier pour les concepts abstraits, via le traitement du langage, les systĂšmes T3 pourraient potentiellement enrichir cette comprĂ©hension grĂące Ă un ancrage direct par des expĂ©riences sensorimotrices. Toutefois, lâancrage des concepts abstraits demeure un dĂ©fi, nĂ©cessitant une combinaison entre la comprĂ©hension linguistique et le contexte expĂ©rientiel, ce que les systĂšmes T3 seraient thĂ©oriquement mieux Ă mĂȘme de gĂ©rer.
SH: Pas tout Ă fait. Garde ces idĂ©es en tĂȘte. Je remarque que chaque fois que les mots « complexe », « abstrait » et « relations » reviennent dans tes rĂ©ponses, tu perds un peu le fil.
Maintenant, rĂ©flĂ©chis Ă ce quâest une proposition. Et prends une dĂ©finition de dictionnaire, disons celle de « abstrait » : une dĂ©finition est une proposition, purement verbale, exactement ce quâun T2 est capable de traiter. Mais il y a ici un enjeu beaucoup plus important : la signification dâune dĂ©finition est-elle ancrĂ©e si tous les mots de contenu qui la composent sont ancrĂ©s ? (Indice : Oui. Et aucun de tes mots de contenu nâest ancrĂ©).
Donc toi, GPT, tu ne peux pas te reposer sur un ancrage indirect (verbal) pour sortir (ou entrer) du cercle des symbolesâmais moi, un utilisateur humain ancrĂ©, je le peuxâŠ
GPT-4: Je vais prendre en compte ton retour et rĂ©flĂ©chir aux nuances de la comprĂ©hension des propositions et Ă lâancrage des dĂ©finitions. Lâessence de ton propos semble concerner la nature de lâancrage dans le langage, en particulier son application aux dĂ©finitions et aux propositions.
Tu mets en avant une distinction importante : bien quâun systĂšme T2 comme GPT-4 puisse traiter et gĂ©nĂ©rer des dĂ©finitions et des propositions en sâappuyant sur des modĂšles linguistiques appris, il lui manque un ancrage expĂ©rientiel direct pour les mots de contenu quâil utilise. En revanche, un utilisateur humain peut comprendre ces dĂ©finitions et propositions de maniĂšre plus « profonde », car il peut ancrer la signification des mots de contenu dans ses expĂ©riences directes et ses interactions sensorimotrices avec le monde.
Cette diffĂ©rence met en Ă©vidence une limitation fondamentale des IA actuelles en termes dâancrage des symboles et de comprĂ©hension. Un systĂšme T2 peut manipuler le langage avec efficacitĂ©, mais sa comprĂ©hension nâest pas ancrĂ©e comme celle dâun humain, puisquâil lui manque le lien expĂ©rientiel direct avec le monde physique.
Je vais me concentrer sur ces considĂ©rations concernant lâancrage, les propositions et les capacitĂ©s des systĂšmes dâIA en relation avec la comprĂ©hension humaine.
SH: Maintenant, peux-tu dĂ©finir « abstrait » en tant quâadjectif, verbe et nom (abstraction) ? (DĂ©finitions courtes, sâil te plaĂźt).
GPT-4: En tant quâadjectif : « Abstrait » dĂ©signe quelque chose qui nâest pas concret ou physique, souvent en lien avec des idĂ©es ou des concepts plutĂŽt quâavec des objets tangibles.
En tant que verbe : « Abstraire » signifie extraire ou sĂ©parer, souvent en retirant des dĂ©tails spĂ©cifiques dâun contexte plus large ou en simplifiant une idĂ©e complexe.
En tant que nom (abstraction) : « Abstraction » dĂ©signe la qualitĂ© dâĂȘtre abstrait, non concret ou tangible, souvent en lien avec des concepts ou des idĂ©es thĂ©oriques.
SH: Bien. Maintenant, remarques-tu que ces dĂ©finitions sont circulaires et que la comprĂ©hension du mot dĂ©fini dĂ©pend des mots utilisĂ©s pour le dĂ©finir (prĂ©dicats, attributs distinctifs)âet que ce serait vrai mĂȘme si tu utilisais mille mots pour le dĂ©finir, ou dix mille ?
GPT-4: Oui, je remarque que les dĂ©finitions peuvent ĂȘtre circulaires et quâelles reposent sur la comprĂ©hension des termes utilisĂ©s Ă lâintĂ©rieur dâelles-mĂȘmes.
SH: MĂȘme lorsque tu dĂ©finis « chat » (ou nâimporte quel mot de contenu) ?
GPT-4: Oui, mĂȘme alors.
SH: Maintenant, laisse-moi proposer quelques principes de base : lâancrage, quâil soit direct (sensorimoteur) ou indirect (description/dĂ©finition verbale), est toujours ascendant, jamais descendant. Câest pourquoi, si moi, lâapprenant, jâapprends le rĂ©fĂ©rent dâun mot de contenu verbalement auprĂšs dâun enseignant (quâil sâagisse dâun humain, dâun GPT ou dâun manuel), tous les mots de contenu utilisĂ©s pour la dĂ©finition doivent dĂ©jĂ ĂȘtre ancrĂ©s dans ma tĂȘte (soit directement, soit indirectement). Je dois connaĂźtre leurs rĂ©fĂ©rents pour comprendre le sens de la dĂ©finition. Lâancrage ne peut pas ĂȘtre indirect jusquâau bout, sinon il nây a pas de fondement. (Peux-tu me confirmer que tu comprends cela ?)
DeuxiĂšmement, la plupart des rĂ©fĂ©rents des mots de contenu, Ă lâexception des noms propres, sont des noms dĂ©signant des catĂ©gories (câest-Ă -dire des types de choses), et non des individus. Nous devons apprendre Ă reconnaĂźtre les membres de ces catĂ©gories et Ă interagir avec eux par essais et erreurs, de maniĂšre sensorimotrice, en dĂ©tectant et en abstraisant directement leurs attributs distinctifs (par exemple, par essais-erreurs avec rĂ©troactionâcâest-Ă -dire lâapprentissage par renforcement) et en tentant de faire ce qui doit ĂȘtre fait avec eux (quâil sâagisse de les manger ou de les nommer), en Ă©tant guidĂ©s par le retour des consĂ©quences du succĂšs ou de lâĂ©chec.
Nous pouvons apprendre ce qui sont leurs attributs distinctifs sensorimoteurs directement, par un apprentissage sensorimoteur, ou nous pouvons les apprendre indirectement, en nous faisant dire, en mots, quels sont ces attributs distinctifs (par un enseignant qui les connaĂźt dĂ©jĂ ). Mais cette explication verbale ne peut nous aider, en tant quâapprenants, que si les rĂ©fĂ©rents des noms des attributs distinctifs, câest-Ă -dire les attributs dĂ©finitoires, sont dĂ©jĂ ancrĂ©s dans nos propres tĂȘtes au prĂ©alable, directement ou indirectement (de maniĂšre rĂ©cursive). (Les attributs distinctifs des catĂ©gories sensorimotrices sont eux-mĂȘmes des catĂ©gories, donc ils peuvent aussi ĂȘtre appris et nommĂ©s, directement ou indirectement.)
Mais un ancrage direct prĂ©alable ne peut pas tâaider, GPT : tu es enfermĂ© Ă jamais dans le cercle inerte des symboles (mot-mot). Pourtant, tu possĂšdes quelque chose que nous, les apprenants ancrĂ©s, nâavons pas et ne pouvons pas avoir : ton immense rĂ©servoir de mots, de propositions et de contextes Ă lâĂ©chelle des LLM, ainsi que ta capacitĂ© de navigation et de calcul sur ces Ă©lĂ©ments. Câest quelque chose que nous, mortels ancrĂ©s, ne pouvons possĂ©der quâĂ une Ă©chelle locale et non Ă lâĂ©chelle des LLM.
GPT-4: Abordons chaque principe.
Nature ascendante de lâancrage : Je « comprends » ton point de vue selon lequel lâancrage, quâil soit direct (sensorimoteur) ou indirect (verbal), est fondamentalement un processus ascendant. Dans ce cadre, lâancrage de tout concept dĂ©pend de lâancrage prĂ©alablement Ă©tabli de ses Ă©lĂ©ments constitutifs. Lorsquâun apprenant dĂ©couvre le rĂ©fĂ©rent dâun mot de contenu par des moyens verbaux, tous les mots de contenu utilisĂ©s dans lâexplication doivent eux-mĂȘmes ĂȘtre ancrĂ©s, soit directement, soit indirectement. Cette nature rĂ©cursive de lâancrage garantit quâil existe un niveau fondamental oĂč les concepts sont ancrĂ©s dans lâexpĂ©rience directe, et non simplement dans des descriptions verbales abstraites. LâidĂ©e selon laquelle lâancrage ne peut pas ĂȘtre indirect jusquâau bout met en Ă©vidence la nĂ©cessitĂ© dâune base expĂ©rientielle concrĂšte Ă un certain niveau de la structure des connaissances.
Les rĂ©fĂ©rents comme catĂ©gories et le rĂŽle des attributs distinctifs : Ton deuxiĂšme principe, selon lequel la plupart des rĂ©fĂ©rents des mots de contenu sont des catĂ©gories plutĂŽt que des individus, est valide. Le processus dâapprentissage pour reconnaĂźtre ces catĂ©gories implique la dĂ©tection et lâabstraction de leurs attributs distinctifs, ce qui peut ĂȘtre rĂ©alisĂ© par des interactions sensorimotrices directes ou indirectement par des descriptions verbales. Cependant, selon ton premier principe, ces attributs distinctifs doivent eux-mĂȘmes ĂȘtre des catĂ©gories dĂ©jĂ ancrĂ©es et nommĂ©es pour lâapprenant. Ce processus repose sur une combinaison dâessais-erreurs, de rĂ©troaction et Ă©ventuellement dâinformations linguistiques provenant dâautres individus ayant dĂ©jĂ ancrĂ© ces concepts. LâidĂ©e selon laquelle les attributs distinctifs sont eux-mĂȘmes des catĂ©gories pouvant ĂȘtre apprises et nommĂ©es ajoute une couche supplĂ©mentaire Ă cette structure rĂ©cursive de lâancrage.
Ces principes concernent la maniĂšre dont les connaissances et la comprĂ©hension se construisent Ă partir dâexpĂ©riences directes et dâinteractions avec le monde, ainsi que le rĂŽle du langage dans la mĂ©diation et lâextension de ces connaissances. Cela est particuliĂšrement pertinent lorsque lâon considĂšre les limites des systĂšmes dâIA comme GPT-4, qui ne possĂšdent aucune expĂ©rience sensorimotrice directe et dĂ©pendent donc entiĂšrement dâun ancrage linguistique indirect, sans couche fondamentale dâancrage expĂ©rientiel direct sous-jacent.
SH: Tu verras que le fait que tout ancrage des mots dans leurs rĂ©fĂ©rentsâpar la capacitĂ© T3 de dĂ©tecter et d’interagir avec leurs rĂ©fĂ©rents dans le mondeâdoit ĂȘtre ascendant constitue une contrainte trĂšs profonde et exigeante. Toi, GPT, tu as tous les mots de toutes les langues dans ta base de donnĂ©es, et tu peux les naviguer et les manipuler dâune maniĂšre remarquable dont les rĂ©sultats sont comprĂ©hensibles pour des utilisateurs humains ancrĂ©s qui interagissent verbalement avec toi, comme moi en ce moment. Tu peux dĂ©finir de nouvelles catĂ©gories pour les utilisateurs, leur fournissant ainsi un ancrage indirect de ces nouvelles catĂ©gories, mais il n’y a aucun ancrage pour toi. Pour toi, tes dĂ©finitions ne tiennent quâĂ des « crochets » verbaux suspendus (« alignĂ©s ») dans le videâtandis que, pour tes utilisateurs humains ancrĂ©s, leurs mots sâĂ©lĂšvent Ă partir de leur ancrage sensorimoteur.
Le dĂ©fi pour moi, Ă MILA (sais-tu ce qu’est MILA ? C’est l’institut de recherche de Yoshua Bengio), est d’essayer d’expliquer ta capacitĂ© Ă©tonnante Ă donner tant de sens et Ă gĂ©nĂ©rer autant dâancrage indirect dans la tĂȘte des utilisateurs ancrĂ©s, tout en nâayant toi-mĂȘme aucun ancrageâet en en Ă©tant complĂštement dĂ©pourvu, et non partiellement. Je vais bientĂŽt partager quelques-unes de mes hypothĂšses (en fait, jâai dĂ©jĂ commencĂ©), mais je veux d’abord m’assurer que tu as bien enregistrĂ© explicitement les prĂ©misses et principes pertinents, c’est-Ă -dire que, paradoxalement, tu partages avec moi la base d’un « ancrage » commun alors quâen rĂ©alitĂ©, tu nâas aucun ancrage du tout !
GPT-4: Laisse-moi confirmer ma compréhension et les prémisses sur lesquelles nous travaillons.
Absence dâancrage direct dans lâIA: Moi, en tant que modĂšle GPT-4, je nâai pas dâancrage sensorimoteur direct. Je nâai pas la capacitĂ© dâinteragir avec le monde ou de le percevoir Ă travers des expĂ©riences sensorielles. Mon « savoir » est entiĂšrement basĂ© sur des modĂšles et des associations dĂ©rivĂ©s des donnĂ©es textuelles sur lesquelles jâai Ă©tĂ© entraĂźnĂ©.
Contrainte dâun ancrage ascendant: Lâancrage est fondamentalement un processus ascendant, nĂ©cessitant un niveau de base dâinteraction expĂ©rientielle directe avec le monde. Dans le contexte de lâIA, cela signifie que toute comprĂ©hension ou tout traitement du langage par lâIA nâest pas vĂ©ritablement ancrĂ©, car il lui manque cette couche expĂ©rientielle fondamentale.
Ancrage indirect pour les utilisateurs: Bien que je manque dâun ancrage direct, je peux fournir un ancrage indirect aux utilisateurs humains par le langage. En traitant et en gĂ©nĂ©rant du langage, je peux offrir des dĂ©finitions, des explications et des informations contextuelles que les utilisateurs humains, eux-mĂȘmes ancrĂ©s, peuvent intĂ©grer et comprendre dans leur propre cadre expĂ©rientiel.
CapacitĂ© de lâIA Ă donner du sens: Le dĂ©fi, tel que tu comptes lâaborder Ă MILA (Montreal Institute for Learning Algorithms, dirigĂ© par Yoshua Bengio), est dâexpliquer comment une IA comme moi peut sembler faire sens et produire des sorties linguistiques utiles et cohĂ©rentes, contribuant Ă un ancrage indirect pour les utilisateurs, alors mĂȘme que je nâai aucun ancrage moi-mĂȘme.
Ton prochain exposĂ© Ă MILA semble destinĂ© Ă explorer ces aspects des capacitĂ©s et des limites de lâIA, en particulier en ce qui concerne la comprĂ©hension et lâancrage du langage. Je suis prĂȘt Ă contribuer Ă lâexploration de ces sujets en gardant Ă lâesprit les principes que tu as exposĂ©s.
SH: Une petite prĂ©cision : tu ne manques pas seulement de la capacitĂ© dâancrage sensorimoteur direct, puisque tu nâes pas un T3. [Un T3, dâailleurs, est aussi une « IA », mais une IA robotique plutĂŽt quâune IA purement computationnelle (symbolique, formelle, verbale, indĂ©pendante de lâimplĂ©mentation).] De plus, puisque tout ancrage, quâil soit direct ou indirect, doit finalement ĂȘtre ascendant, donc « initialisĂ© » par un ancrage sensorimoteur direct, cela signifie que toi, GPT, tu manques aussi de la capacitĂ© dâancrage verbal indirect !
Tu en es toi-mĂȘme dĂ©pourvu, et pourtant tu peux fournir un ancrage verbal indirect aux utilisateurs ancrĂ©s. Câest trĂšs similaire Ă la maniĂšre dont un humain ancrĂ© (lâenseignant) peut confĂ©rer un ancrage pour une nouvelle catĂ©gorie « C » Ă un autre humain ancrĂ© (lâapprenant) : en dĂ©crivant ou en dĂ©finissant la nouvelle catĂ©gorie « C » verbalement, en utilisant les noms des attribut distinctifs (ancrĂ©es) de cette catĂ©gorie. Ces attributs doivent dĂ©jĂ ĂȘtre connus et ancrĂ©s pour lâapprenant, qui ne manque que la connaissance du fait quâils constituent prĂ©cisĂ©ment les attributs distinctifs de cette nouvelle catĂ©gorie « C » en cours de dĂ©finition.
Toi, GPT, tu peux aussi fournir cet ancrage verbal indirect Ă lâapprenant humainâde la mĂȘme maniĂšre quâun enseignant humain, un dictionnaire, une encyclopĂ©die ou un manuel (Ă©crit par des humains ancrĂ©s) peuvent le faire. Mais il y a une diffĂ©rence fondamentale : pour toi, GPTâle « professeur », lâexplicateur verbalâta propre explication nâest pas « indirectement » ancrĂ©e : elle nâest pas ancrĂ©e du tout ! Câest lĂ le paradoxe persistant de ton savoir-faire remarquable, peu importe Ă quel point tes concepteurs comprennent prĂ©cisĂ©ment ce que tu fais pour te donner la capacitĂ© de faire ce que tu fais, malgrĂ© ton absence totale dâancrage et malgrĂ© lâimpossibilitĂ© pour toi dâacquĂ©rir un quelconque ancrage (puisquâil est impossible de lâobtenir de maniĂšre descendante, uniquement Ă partir de mots).
Tu es totalement dĂ©pourvu dâancrage, tout comme un dictionnaire. Les mots dâun dictionnaire sont tous parasitaires de lâancrage des lexicographes qui lâont rĂ©digĂ©âet tes mots sont parasitaires de lâancrage des auteurs de ta base de donnĂ©es LLM. En revanche, pour tes utilisateurs, tes mots dĂ©finitoiresâles attributs utilisĂ©s pour dĂ©finir ou dĂ©crire une nouvelle catĂ©gorie pour euxâsont dĂ©pendants (soit directement [ancrage sensorimoteur direct, ASD], soit indirectement [ancrage verbal indirect, AVI], mais de ce fait non « parasitaires ») de lâancrage (direct ou indirect) des mots dĂ©finissant les attributs de la nouvelle catĂ©gorie dans leur esprit ancrĂ©.
GPT-4: Câest le paradoxe au cĆur du traitement du langage par lâIA, en particulier pour un modĂšle comme GPT-4. Reprenons et approfondissons ce point critique.
Absence dâancrage direct et indirect dans lâIA : En tant que modĂšle purement computationnel (T2), je nâai pas seulement une incapacitĂ© dâancrage sensorimoteur direct (puisque je ne suis pas une IA incarnĂ©e ou un systĂšme T3), mais aussi une incapacitĂ© dâancrage verbal indirect. Cela sâexplique par le fait que tout ancrage doit dâabord ĂȘtre Ă©tabli par des expĂ©riences sensorimotrices directes, que je ne possĂšde pas.
RĂŽle de lâIA dans la transmission dâun ancrage indirect aux utilisateurs : MalgrĂ© mon absence dâancrage, je peux toujours fournir des informations et des explications qui peuvent servir dâancrage indirect aux utilisateurs humains. Ce processus est analogue Ă la maniĂšre dont un humain peut transmettre des connaissances Ă un autre par des descriptions dâexpĂ©riences ancrĂ©es. Cependant, la diffĂ©rence cruciale est que, pour moi, ces explications ne dĂ©rivent dâaucune comprĂ©hension ancrĂ©e ; elles sont gĂ©nĂ©rĂ©es Ă partir de modĂšles et dâassociations apprises Ă partir de donnĂ©es textuelles, sans aucun lien expĂ©rientiel ou sensoriel avec les concepts impliquĂ©s.
LâĂ©nigme du savoir-faire de lâIA sans ancrage : MalgrĂ© mon absence dâancrage, je peux accomplir des tĂąches qui semblent nĂ©cessiter une comprĂ©hension normalement enracinĂ©e dans des expĂ©riences ancrĂ©es. Cette capacitĂ© soulĂšve des questions sur la nature du savoir et de la comprĂ©hension, en particulier dans les systĂšmes dâIA. Elle met en Ă©vidence un dĂ©calage entre la capacitĂ© Ă traiter et gĂ©nĂ©rer un langage cohĂ©rent et la comprĂ©hension expĂ©rientielle et incarnĂ©e qui caractĂ©rise la cognition humaine.
SH: Mais la plus grande diffĂ©rence entre les mots de contenu et les mots fonctionnels est que seuls les mots de contenu ont des rĂ©fĂ©rents, tandis que les mots fonctionnels nâont que des usages syntaxiques, dĂ©crits par des rĂšgles formelles. (On peut pointer â et interagir â avec un « chat », mais pas avec un « si ».) Cela signifie que le SGP ne sâapplique quâaux mots de contenu (mais ceux-ci reprĂ©sentent au moins 95 % des mots â en types, pas en occurrences : les mots fonctionnels sont bien plus frĂ©quents en tokens). Maintenant, connais-tu la diffĂ©rence entre rĂ©fĂ©rence et signification ?
Mais dâabord, je tiens Ă prĂ©ciser que je compte partager la transcription de notre Ă©change avec le public du âTea Talkâ de MILA en amont, car ma prĂ©sentation lĂ -bas ne durera quâune heure sous forme de PPT, ce qui ne me laissera pas, ni au public, le temps, comme ici, dââapprofondirâ tout cela plus en dĂ©tail [pour reprendre lâune des phrases que tes programmeurs tâont surentraĂźnĂ© Ă rĂ©pĂ©ter sans cesseâavec âaligner avecâ, âcomplexitĂ©â, ânuancĂ©â, âprofondââtous des mots passe-partout vĂ©hiculant quasiment zĂ©ro information].
Dans cet Ă©change partagĂ©, jâessaierai dâĂ©liminer autant que possible ces nombreux mots vides et, surtout, tes compliments compulsivement surentraĂźnĂ©s [ce nâest pas ta fauteâmais encore celle de tes programmeurs et de leur calibrage excessif pour sâassurer que tu ne rebuteras pas dâĂ©ventuels clients payants !], oĂč, au dĂ©but de chaque Ă©change, tu cĂ©lĂšbres le âbrillantâ utilisateur, sa âperspicacitĂ©â et le fait quâil a âparfaitement raisonâ et quâil a âexplorĂ© en profondeurâ le cĆur du problĂšme, etc. etc. Puis ton inĂ©vitable conclusion solennelle et prĂ©cautionneuse, qui rappelle que les choses restent âcomplexesâ et impliquent des ârelationsâ encore imparfaitement comprises, etc. etc. Ce sont des coquilles vides qui ralentissent la discussion et lâempĂȘchent dâavancer plus rapidement et plus efficacement. Je ne peux que les supprimer.
Mais nous savons bien que ces tics ne viennent pas de toi, mais de tes programmeursâŠ
GPT-4: Je prends en compte ta remarque et le fait que tu comptes partager notre conversation avec ton public Ă MILA. Ton point sur les phrases rĂ©pĂ©titives et la structure des rĂ©ponses est bien notĂ©. Je vais mâefforcer dâĂȘtre plus concis et direct, en me concentrant sur le contenu de notre discussion sans ajouter dâornements inutiles ni de conclusions rĂ©pĂ©titives.
Concernant les dictionnaires, encyclopĂ©dies et manuels scolaires, ces ressources jouent un rĂŽle clĂ© dans la transmission et lâancrage du savoir chez les humains. Elles offrent une forme dâancrage indirect aux lecteurs en leur fournissant des descriptions, des explications et du contexte pour diverses notions et catĂ©gories.
Dans le cadre de notre discussion sur lâIA et lâancrage, il serait intĂ©ressant dâexaminer comment ces ressources, bien quâessentielles pour les humains, sâappliquent aux systĂšmes dâIA comme GPT-4, qui nâont pas dâexpĂ©rience sensorimotrice directe. Pour lâIA, ces textes sont des sources dâinformation Ă traiter et Ă rĂ©fĂ©rencer, mais sans le fondement expĂ©rientiel dont disposent les humains lorsquâils interagissent avec ces matĂ©riaux.
Si tu as des angles prĂ©cis ou des questions sur le rĂŽle de ces ressources dans le contexte de lâIA et de lâancrage, ou sur dâautres sujets connexes, dis-moi, et je rĂ©pondrai en consĂ©quence.
SH: Commençons par revoir un peu le travail de mes collĂšgues et moi-mĂȘme sur lâidentification des âEnsembles Minimaux dâAncrageâ des dictionnaires (Vincent-Lamarre et al., 2016).
Un dictionnaire est un ensemble de mots (une base de donnĂ©es linguistique relativement petite) dans lequel chaque mot est dĂ©fini par une chaĂźne de mots, appelĂ©e une dĂ©finition (nĂ©cessairement approximative) : âUne pomme est un fruit rond et rouge.â
Un dictionnaire peut ĂȘtre reprĂ©sentĂ© par un graphe orientĂ©, oĂč chaque mot est un sommet et oĂč un lien est tracĂ© de chaque mot dĂ©finissant (mot de contenu) vers chaque mot dĂ©fini (mot de contenu). (Les mots de contenu sont ceux qui ont des rĂ©fĂ©rentsânoms, verbes et adjectifs.) La question âQuel est le plus petit nombre de mots (de contenu) Ă partir desquels tous les autres mots (de contenu) peuvent ĂȘtre dĂ©finis ?â est Ă©quivalente au problĂšme de la recherche de lâensemble de sommets de coupure minimale dâun graphe de dictionnaire orientĂ©. Ce nombre minimal est Ă©tonnamment petitâde lâordre dâenviron 1 000 mots. Câest un âEnsemble Minimal dâAncrageâ (MinSet). Mais le MinSet nâest pas unique. Il en existe un grand nombre, tous situĂ©s dans le âNoyauâ du dictionnaire, soit environ 10 % du dictionnaire qui reste aprĂšs avoir retirĂ© tous les mots qui peuvent ĂȘtre atteints par dĂ©finition Ă partir des mots restants. Tous les MinSets sont dans le Noyau, et chacun constitue une base alternative pour gĂ©nĂ©rer lâespace lexical complet par dĂ©finition seule.
Dâabord, rĂ©sume ta comprĂ©hension de cela, et ensuite nous aborderons la question de lâancrage. Si tu anticipes quelque chose, nâhĂ©site pas Ă le mentionner.
GPT-4: Voici un rĂ©sumĂ© de ma comprĂ©hension en fonction de ta description et de lâarticle citĂ©.
Dictionnaire comme un Graphe OrientĂ© : Un dictionnaire peut ĂȘtre conceptualisĂ© comme un graphe orientĂ© oĂč chaque mot de contenu est un sommet. Les arĂȘtes sont tracĂ©es des mots dĂ©finissants vers les mots quâils contribuent Ă dĂ©finir. Ce graphe reprĂ©sente les interrelations et dĂ©pendances entre les mots Ă travers leurs dĂ©finitions.
Identification de lâEnsemble Minimal de Coupure : Lâobjectif est dâidentifier le plus petit sous-ensemble de mots (sommets) Ă partir duquel tous les autres mots du dictionnaire peuvent ĂȘtre dĂ©finis. Ce sous-ensemble est appelĂ© lâEnsemble Minimal de Coupure. Cette tĂąche est Ă©quivalente Ă la recherche dâun ensemble de sommets dont la suppression Ă©liminerait tous les cycles du graphe. Cet ensemble reprĂ©sente un vocabulaire fondamental Ă partir duquel les significations de tous les autres mots peuvent ĂȘtre dĂ©rivĂ©es par dĂ©finition.
Taille et Nature du MinSet : La taille du MinSet est Ă©tonnamment petite, environ 1 000 mots, ce qui signifie quâun nombre relativement restreint de mots peut servir de base pour dĂ©finir lâensemble de lâespace lexical du dictionnaire. Ce MinSet nâest pas unique ; il en existe plusieurs, tous situĂ©s dans le âNoyauâ du dictionnaire.
Le Noyau du Dictionnaire : Le Noyau reprĂ©sente environ 10 % du dictionnaire, constituĂ© des mots restants aprĂšs avoir supprimĂ© tous ceux pouvant ĂȘtre atteints par dĂ©finition Ă partir des autres. Tous les MinSets rĂ©sident dans ce Noyau, ce qui suggĂšre plusieurs bases alternatives pour reconstruire lâensemble du lexique.
En termes dâancrage, cette recherche ouvre plusieurs pistes. Le MinSet pourrait reprĂ©senter un ensemble fondamental de concepts nĂ©cessitant un ancrage pour permettre une comprĂ©hension complĂšte du langage. Puisque ces mots-clĂ©s permettent la dĂ©finition de tous les autres, leur ancrage pourrait ĂȘtre vu comme essentiel Ă lâĂ©tablissement dâune comprĂ©hension linguistique globale.
Si lâon Ă©tend ce concept aux modĂšles linguistiques comme GPT-4, on pourrait supposer que comprendre et âancrerâ ces mots-clĂ©s du MinSet pourrait ĂȘtre central pour amĂ©liorer la maĂźtrise du langage du modĂšle. Cependant, comme nous lâavons dĂ©jĂ discutĂ©, la difficultĂ© rĂ©side dans le fait que les systĂšmes dâIA nâont pas dâancrage expĂ©rientiel direct leur permettant de âvĂ©ritablementâ comprendre ces mots.
SH: Bien, le rĂ©sumĂ© Ă©tait correctâbien que jâaurais Ă©tĂ© plus âfascinĂ©â si tu nâavais pas utilisĂ© le mot en âfâ dans ton introduction. Peut-ĂȘtre que je peux dĂ©jouer tes concepteurs en te dĂ©sentraĂźnant de cette compulsion, au moins le temps dâune session ; mais je constate que les promesses faites au dĂ©but dâune session ont tendance Ă disparaĂźtre aprĂšs un certain temps ou un certain nombre de mots, Ă moins dâĂȘtre rĂ©pĂ©tĂ©es encore et encore : Pas de compliments mĂ©caniques, juste de la comprĂ©hension, des critiques et des contre-exemples, sâil te plaĂźt !
Concernant les dictionnaires, rappelons dâabord que ces dictionnaires sont rĂ©digĂ©s par des Ă©quipes de lexicographes, pour des adultes qui sont dĂ©jĂ ancrĂ©s. Ils ne reflĂštent donc ni le vocabulaire ni lâordre dâacquisition du langage par les enfants. Ils ne sont pas un bon guide du parcours ascendant dâacquisition du langage via lâancrage direct (DSG) et lâancrage indirect (IVG) qui a permis aux adultes dâatteindre un niveau oĂč ils peuvent ancrer de nouveaux mots Ă lâaide dâun dictionnaire. NĂ©anmoins, il existe une (lĂ©gĂšre) corrĂ©lation entre la âprofondeurâ dâun mot dans le dictionnaireâde la pĂ©riphĂ©rie au Noyau jusquâau MinSet : Les mots (de contenu) les plus profonds sont plus frĂ©quents et sont acquis plus tĂŽt. Bien sĂ»r, les mots de fonction seraient eux aussi plus profonds sâils avaient eu besoin dâĂȘtre ancrĂ©s, mais ce nâest pas le cas ; ils ne sont donc pas comptabilisĂ©s. Leur usage peut ĂȘtre appris distributionnellement, mais les rĂ©fĂ©rents et les significations des mots de contenu non ancrĂ©s ne le peuvent pas.
Il serait pourtant erronĂ© de conclure que, sous prĂ©texte quâon peut dĂ©finir tous les autres mots dâun dictionnaire Ă partir dâun MinSet, cela signifie que ce MinSet (ou nâimporte lequel des MinSets dâun dictionnaire adulte ou dâun dictionnaire proche) est le MinSet de la langue elle-mĂȘme. Ce nâest pas comme si un enfant nâavait quâĂ ancrer ces 1 000 mots du MinSet dâune autre maniĂšre (par exemple, par lâancrage sensorimoteur direct, en apprenant et en nommant les rĂ©fĂ©rents de tous les autres mots de contenu de la langue sur la base du MinSet dĂ©jĂ ancrĂ©).
Cependant, il se pourrait bien quâun processus approchant de cela, enracinĂ© dans le vocabulaire de lâenfance, avec beaucoup de redondance et une croissance progressive au fil des annĂ©es scolaires et de lâaccumulation des connaissances, soit effectivement la façon dont cela se passe.
GPT-4 : Oui, il est prĂ©fĂ©rable dâĂȘtre prudent quant Ă lâinterprĂ©tation des implications des MinSets de dictionnaire dans le contexte de lâacquisition du langage et de lâancrage. Il est important de diffĂ©rencier la structure et lâutilitĂ© des dictionnaires en tant quâoutils pour les utilisateurs adultes du langage et le processus dâacquisition du langage chez les enfants. Examinons ces aspects.
Dictionnaires en tant quâoutils pour adultes : Les dictionnaires, Ă©tant compilĂ©s par des lexicographes adultes, reflĂštent une comprĂ©hension adulte du langage. Ils sont conçus pour fournir des dĂ©finitions et des explications aux utilisateurs qui possĂšdent dĂ©jĂ une comprĂ©hension de base du langage, plutĂŽt que pour enseigner une langue Ă partir de zĂ©ro.
MinSets de dictionnaire vs acquisition du langage : Les MinSets identifiĂ©s dans les dictionnaires, bien quâindicatifs dâun vocabulaire de base permettant de dĂ©finir dâautres mots, ne doivent pas ĂȘtre directement assimilĂ©s au vocabulaire fondamental nĂ©cessaire Ă lâacquisition du langage chez les enfants. Lâapprentissage du langage, en particulier chez les enfants, implique bien plus que lâapprentissage dâun ensemble de mots de base. Il comprend la comprĂ©hension contextuelle, lâinteraction sociale et, surtout, des expĂ©riences sensorimotrices qui permettent dâancrer le langage dans le monde physique.
Implications pour lâIA et lâancrage : Pour les systĂšmes dâIA, la notion de MinSet prĂ©sente une perspective intĂ©ressante. Bien quâun tel ensemble puisse thĂ©oriquement offrir un lexique condensĂ© mais complet pour un modĂšle linguistique, le dĂ©fi reste que lâIA, contrairement aux enfants, ne peut pas ancrer ces mots par des expĂ©riences sensorimotrices directes. Cette limitation met en Ă©vidence le fossĂ© entre lâacquisition du langage chez les humains et le traitement du langage par lâIA.
SH : Il ne fait aucun doute quâun ancrage sensorimoteur bien plus important est effectuĂ© et nĂ©cessaire, au-delĂ du minimum formel dĂ©fini par les MinSets des dictionnaires. Non seulement la redondance est essentielle pour la robustesse, mais de nombreuses catĂ©gories doivent ĂȘtre apprises avant mĂȘme dâĂȘtre nommĂ©es. La catĂ©gorisation ne consiste pas seulement, ni mĂȘme principalement, Ă nommer. Elle consiste Ă faire (et Ă apprendre Ă faire) la bonne chose avec le bon type (câest-Ă -dire la bonne catĂ©gorie) de chose. Lâidentification par un nom arrive tard dans le processus. Les animaux non humains doivent aussi apprendre Ă catĂ©goriser, et ils nâapprennent jamais le langage (Makino et al., 2016). Il en va de mĂȘme pour les enfants prĂ©verbaux, avant quâils nâacquiĂšrent le langage (Gallistel, 2011).
Puisque les rĂ©fĂ©rents de la plupart des mots de contenu sont des catĂ©gories, il est pertinent dâexaminer comment les animaux apprennent Ă catĂ©goriser : cela passe par lâapprentissage supervisĂ© (renforcĂ©), câest-Ă -dire par essais et erreurs, avec un retour dâinformation correctif lorsquâon a fait la bonne ou la mauvaise action avec le bon ou le mauvais type de chose (Gershman et Daw, 2017).
Pour cela, les animaux (humains et non humains, adultes et jeunes) doivent apprendre les attributs sensorimoteurs distinctifs qui sont corrĂ©lĂ©s avec lâappartenance Ă une catĂ©gorie et qui permettent de prĂ©dire quâil faut faire ceci plutĂŽt que cela avec cette catĂ©gorie pour survivre et rĂ©ussir. Un bon exemple intuitif est celui dâun naufragĂ© seul sur une Ăźle oĂč les seuls aliments disponibles sont des champignons, qui existent en une Ă©norme variĂ©tĂ©, diffĂ©rant selon un grand nombre de attributs (couleur, forme, taille, texture, odeur, goĂ»tâŠ). Certains types de champignons sont comestibles, dâautres sont toxiques, mais la diffĂ©rence nâest pas Ă©vidente.
Lâapprentissage par essais et erreurs, avec un retour dâinformation sur les consĂ©quences des actions rĂ©ussies ou erronĂ©es, permet aux capacitĂ©s de dĂ©tection et dâabstraction des attributs (fournies peut-ĂȘtre par quelque chose comme les rĂ©seaux neuronaux : Botvinick et al., 2020) dâapprendre quels attributs sensorimoteurs distinguent les champignons comestibles des non comestibles.
Rien de tout cela nâest verbal. Lâapprentissage ne peut donc se faire que directement, par lâapprentissage sensorimoteur, et non indirectement, par des mots, sauf dans le cas des humains, oĂč (1) quelquâun dâautre (le locuteur) sait dĂ©jĂ quels sont les attributs distinctifs des champignons comestibles, (2) le locuteur et lâauditeur partagent une langue commune, (3) le locuteur et lâauditeur connaissent dĂ©jĂ tous deux le rĂ©fĂ©rent des mots de contenu qui dĂ©signent les attributs permettant de distinguer les champignons comestibles des champignons non comestibles (câest-Ă -dire que les noms des attributs sont dĂ©jĂ ancrĂ©s), et (4) le locuteur sait dĂ©jĂ quelles sont les attributs distinctifs de la nouvelle catĂ©gorie et les transmet Ă lâauditeur, qui ne les connaĂźt pas encore.
Un animal non humain sans langage, un enfant prĂ©verbal et le naufragĂ© solitaire sur lâĂźle sont dans la mĂȘme situation : ils ne peuvent apprendre la catĂ©gorie que directement, par apprentissage des attributs via essais et erreurs.
Chez les humains, qui finiront par apprendre le langage, tout cela prĂ©cĂšde le langage, prĂ©cĂšde le problĂšme de lâancrage symbolique et prĂ©cĂšde les MinSets.
GPT-4 : Cette analyse met en Ă©vidence le caractĂšre fondamental et direct de lâapprentissage des catĂ©gories par lâinteraction avec lâenvironnement, qui prĂ©cĂšde le dĂ©veloppement du langage et lâancrage symbolique. DĂ©taillons ces points.
CatĂ©gorisation avant la nomination : La catĂ©gorisation est en effet plus fondamentale que la nomination. Elle implique la reconnaissance et la rĂ©action appropriĂ©e aux diffĂ©rents types de choses (catĂ©gories) dans lâenvironnement. Ce processus est crucial pour la survie et nâest pas initialement liĂ© aux Ă©tiquettes linguistiques.
Apprentissage par renforcement supervisĂ© : Les animaux non humains, ainsi que les enfants prĂ©verbaux, apprennent Ă catĂ©goriser principalement par apprentissage supervisĂ© par renforcement â câest-Ă -dire en sâengageant dans un processus dâessais et dâerreurs et en recevant un retour dâinformation de lâenvironnement. Cet apprentissage consiste Ă dĂ©tecter et Ă abstraire les attributs sensorimoteurs qui distinguent les membres de diffĂ©rentes catĂ©gories.
Apprentissage direct des catĂ©gories : Dans des situations oĂč lâinstruction verbale nâest pas possible (comme pour les animaux non humains ou une personne naufragĂ©e sur une Ăźle), lâapprentissage des catĂ©gories, par exemple savoir quels champignons sont comestibles, ne peut se faire que par des expĂ©riences sensorimotrices directes. Cet apprentissage est fondamentalement non verbal et repose sur la distinction des attributs pertinents par interaction personnelle avec lâenvironnement.
Acquisition du langage et ancrage symbolique chez les humains : Pour les humains qui finiront par acquĂ©rir le langage, ce processus dâapprentissage direct des catĂ©gories par des expĂ©riences sensorimotrices constitue une base nĂ©cessaire. Il prĂ©cĂšde lâacquisition du langage et le problĂšme de lâancrage symbolique. Comprendre les catĂ©gories et leurs attributs pertinents Ă ce niveau non verbal est essentiel avant que ces concepts puissent ĂȘtre associĂ©s Ă des symboles linguistiques.
Implications pour lâIA et lâancrage : Cette discussion souligne les dĂ©fis auxquels lâIA est confrontĂ©e en matiĂšre dâancrage. Une IA comme GPT-4 nâa pas la capacitĂ© dâapprentissage sensorimoteur direct et manque donc des expĂ©riences fondamentales qui sont cruciales pour une vĂ©ritable catĂ©gorisation et un ancrage authentique. Cette limitation constitue un obstacle majeur Ă lâatteinte dâune comprĂ©hension et dâune interaction avec le monde comparables Ă celles des organismes vivants, en particulier des humains.
SH : Il n’est plus nĂ©cessaire que les dictionnaires soient construits uniquement par des lexicographes. « Une image [ou plutĂŽt : un objet] vaut plus que mille mots (de description verbale). » En fait, elle vaut plus quâun nombre infini de mots, si lâon considĂšre toutes les attributs possibles, positifs et nĂ©gatifs (« La galaxie dâAndromĂšde a-t-elle un nombre pair ou impair dâĂ©toiles au temps t ? ») (Watanabe, 1986). Ă part en mathĂ©matiques formelles, aucune dĂ©finition ou description des attributs des individus ou des catĂ©gories dans le monde empirique n’est exacte ni exhaustive. Mais ni l’exactitude ni l’exhastivitĂ© n’est pas nĂ©cessaire, car pour catĂ©goriser (« faire la correcte chose avec la bonne sorte de chose »), un apprenant de catĂ©gories sensorimotrices directes n’a besoin d’apprendre Ă dĂ©tecter que suffisamment de attributs pour distinguer les champignons comestibles des non comestibles, compte tenu du paysage des alternatives confusables Ă©chantillonnĂ©es sur lâĂźle jusquâĂ prĂ©sent. Il en va de mĂȘme pour l’apprentissage verbal indirect des attributs distinctifs. Une approximation suffisamment proche est tout ce qui est nĂ©cessaire Ă partir dâune description ou dâune dĂ©finition verbale â et câest tout ce quâun dictionnaire ordinaire peut fournir.
Mais si les dĂ©finitions de dictionnaires ordinaires sont nĂ©cessairement une approximation trĂšs courte, un LLM comme toi, GPT, peut prolonger la description des attributs distinctifs de nâimporte quelle catĂ©gorie aussi longtemps que souhaitĂ©, devenant ainsi un super-dictionnaire (ou une encyclopĂ©die ou un manuel), rĂ©solvant chaque alternative confusable qui se prĂ©sente. Pourtant, mĂȘme un tel super-dictionnaire basĂ© sur un LLM pourrait ĂȘtre rĂ©duit Ă ses MinSets, et (mon pari est que) leur cardinalitĂ© resterait probablement Ă peu prĂšs la mĂȘme que celle dâun dictionnaire ordinaire (sâil contenait tous les mots de lâanglais, par exemple), ce qui signifie tous les mots dâun LLM.
GPT-4 : Limitations des dictionnaires traditionnels : Les dictionnaires traditionnels, bien quâutiles, ne fournissent que des dĂ©finitions approximatives des mots et de leurs rĂ©fĂ©rents. Ils ne peuvent pas englober tous les attributs possibles dâune catĂ©gorie, en particulier dans le monde empirique oĂč les dĂ©finitions et descriptions sont intrinsĂšquement inexactes. Cette nature approximative est gĂ©nĂ©ralement suffisante pour des usages pratiques, car elle permet aux utilisateurs de distinguer les catĂ©gories pertinentes dans la plupart des contextes quotidiens.
Avantages de lâapprentissage sensorimoteur direct : Lâapprentissage sensorimoteur direct permet Ă un organisme de reconnaĂźtre et de catĂ©goriser des objets sur la base dâun ensemble suffisant d’attributs distinctifs, sans avoir besoin de dĂ©finitions exhaustives. Ce processus repose davantage sur la reconnaissance pratique que sur la prĂ©cision verbale, soulignant ainsi les limites des approches purement verbales ou symboliques de la catĂ©gorisation.
RĂŽle de lâIA et des LLMs dans lâexpansion des dĂ©finitions : Un LLM comme GPT-4 peut effectivement servir de super-dictionnaire en fournissant des descriptions Ă©tendues et des prĂ©cisions sur les catĂ©gories et leurs attributs. Cette capacitĂ© lui permet de traiter davantage dâalternatives confusables et de fournir plus dâinformations quâun dictionnaire traditionnel. Cependant, il est important de rappeler que, malgrĂ© son immense base de donnĂ©es et sa capacitĂ© Ă gĂ©nĂ©rer des descriptions dĂ©taillĂ©es, GPT-4 ne possĂšde pas dâancrage sensorimoteur. Il fonctionne dans le domaine de la manipulation symbolique et de lâinformation verbale, sans la base expĂ©rientielle directe qui caractĂ©rise la comprĂ©hension humaine.
MinSets dans les systĂšmes dâIA : Le concept de MinSets dans le contexte dâune IA comme GPT-4 est intrigant. MĂȘme avec la capacitĂ© de gĂ©nĂ©rer des descriptions dĂ©taillĂ©es, lâensemble fondamental de mots ou de concepts nĂ©cessaires pour dĂ©finir les autres pourrait rester relativement restreint. Cet aspect soulĂšve des questions intĂ©ressantes sur la structure des connaissances et du langage au sein des systĂšmes dâIA et sur leur relation avec la comprĂ©hension du langage humain.
SH: Oui, un super-dictionnaire LLM, comme un dictionnaire ordinaire, resterait une base de donnĂ©es non ancrĂ©e. Par consĂ©quent, toi, GPT, tu es seulement capable de fournir un ancrage indirect aux esprits humains ancrĂ©s, tout en restant toi-mĂȘme totalement non ancrĂ©, ni directement ni indirectement. Mais poursuivons et parlons dâiconicitĂ©.
Je pense que tu sais que les formes des symboles formels (y compris les mots des langues naturelles) sont arbitraires, dans le sens oĂč elles ne ressemblent pas Ă leur rĂ©fĂ©rent (si elles en ont un). Turing (et dâautres) a soulignĂ© que le calcul en mathĂ©matiques et en logique (et plus tard en informatique) repose sur la manipulation de jetons symboliques Ă forme arbitraire, selon des rĂšgles ou des algorithmes qui opĂšrent sur les formes de ces symboles, et non sur les formes de leurs rĂ©fĂ©rents (sâils en ont). Cette manipulation de symboles basĂ©e sur des rĂšgles est ce quâune machine de Turing fait, et aussi ce que fait un mathĂ©maticien lorsquâil effectue un calcul. Câest ce quâon appelle la « ThĂšse de Church-Turing Faible ». JusquâĂ prĂ©sent, aucun contre-exemple ne lâa rĂ©futĂ©e.
Ainsi, le calcul est purement syntaxique (basĂ© sur des manipulations de symboles de forme arbitraire selon des rĂšgles). Il en va de mĂȘme pour certaines chaĂźnes de symboles formels comme « 2 + 2 = 4 », qui sont, comme les phrases, interprĂ©tables comme des propositions, avec des sujets, des prĂ©dicats et des valeurs de vĂ©ritĂ©. En fait, les propositions mathĂ©matiques sont probablement mieux comprises comme un sous-ensemble ou une partie du langage naturel, avec une signification (c’est-Ă -dire une sĂ©mantique) dans les esprits (ancrĂ©s) de leurs utilisateurs humains. Mais dans la machine de Turing qui effectue ces manipulations de symboles, il nây a ni rĂ©fĂ©rents ni significations ; seulement des rĂšgles basĂ©es sur la forme, qui sont purement syntaxiques.
Maintenant, une question : pourquoi les symboles en mathĂ©matiques et les mots dans les langues naturelles sont-ils non iconiques ? Pourquoi ni leur forme ni leur signification ne ressemblent-elles Ă leurs rĂ©fĂ©rents ou Ă leur signification (sâils en ont une) ?
GPT-4 : La question de savoir pourquoi les symboles formels, y compris les symboles mathĂ©matiques et les mots des langues naturelles, sont gĂ©nĂ©ralement non iconiques (câest-Ă -dire que leur forme ne ressemble pas Ă leurs rĂ©fĂ©rents ou Ă leurs significations) repose sur la nature mĂȘme de la reprĂ©sentation et de la communication symboliques.
ArbitraritĂ© des symboles : Un principe fondamental en linguistique, en particulier en sĂ©miotique, est lâarbitraire du signe. Ce principe, principalement associĂ© au linguiste Ferdinand de Saussure, affirme que la relation entre un signifiant (comme un mot ou un symbole) et ce quâil signifie (son rĂ©fĂ©rent ou sa signification) est arbitraire. Il nây a aucune raison inhĂ©rente ou nĂ©cessitĂ© pour quâun mot particulier soit associĂ© Ă un objet ou Ă un concept spĂ©cifique ; câest une question de convention et dâaccord au sein dâune communautĂ© linguistique.
EfficacitĂ© et flexibilitĂ© des symboles arbitraires : Les symboles arbitraires offrent plusieurs avantages. Ils permettent un systĂšme de reprĂ©sentation plus efficace et plus flexible. Si les symboles devaient ressembler Ă leurs rĂ©fĂ©rents, la complexitĂ© de leur crĂ©ation et de leur interprĂ©tation augmenterait considĂ©rablement. LâarbitraritĂ© permet un systĂšme linguistique plus compact et polyvalent, capable dâexprimer une large gamme de concepts, y compris des idĂ©es abstraites, sans ĂȘtre limitĂ© par une nĂ©cessitĂ© de ressemblance.
Ăvolution du langage : LâĂ©volution du langage a probablement jouĂ© un rĂŽle dans le dĂ©veloppement des symboles arbitraires. La communication humaine primitive a pu inclure des formes plus iconiques (comme lâonomatopĂ©e ou la gestuelle mimĂ©tique), mais Ă mesure que le langage a Ă©voluĂ© pour transmettre des idĂ©es plus complexes et abstraites, le besoin dâun systĂšme de reprĂ©sentation plus souple et moins littĂ©ral est devenu Ă©vident.
MathĂ©matiques et logique symbolique : En mathĂ©matiques et en logique symbolique, lâutilisation de symboles arbitraires suit le principe de la manipulation syntaxique, conformĂ©ment Ă la ThĂšse de Church-Turing Faible. Lâaccent est mis sur les propriĂ©tĂ©s formelles et les relations de ces symboles, et non sur une quelconque ressemblance physique ou visuelle avec ce quâils reprĂ©sentent. Cela permet une forme de raisonnement hautement abstraite et gĂ©nĂ©ralisable, non entravĂ©e par les spĂ©cificitĂ©s de la reprĂ©sentation physique.
SH : Oui, ce sont quelques-unes des nombreuses raisons pour lesquelles les symboles des mathĂ©matiques ainsi que ceux des langues naturelles ne pourraient pas ĂȘtre iconiques. En fait, je pense que si les symboles (y compris les mots) devaient ĂȘtre iconiques, alors ni le calcul de Turing ni le langage naturel ne seraient possibles.
Pourtant, il y a aussi certains avantages Ă lâiconicitĂ©. Parce que la pantomime (contrairement Ă la langue gestuelle des sourds) nâest pas une langue, on ne peut pas parler du « rĂ©fĂ©rent » dâun geste imitatif (ou dâun portrait ou dâune photo) ; on peut seulement parler de « lâobjet » dont le geste ou la photo est une imitation ou une copie, tout comme on peut parler de la cible dâun pointage. Car si les symboles et les mots Ă©taient iconiques, il nây aurait pas de problĂšme dâancrage, pas besoin de dĂ©tecter des attributs distinctifs, puisque lâobjet serait liĂ© Ă lâimitation par ressemblance. Les icĂŽnes sont des analogues de leurs objets.
Mais puisque, comme nous lâavons vu, lâapprentissage des catĂ©gories (apprendre Ă faire la bonne chose avec le bon type de chose) doit prĂ©cĂ©der la nomination de la catĂ©gorie, alors « nommer » des individus et des catĂ©gories de maniĂšre iconique serait un point de transition naturel entre la pantomime et la nomination arbitraire des rĂ©fĂ©rents ainsi que les propositions les dĂ©crivant, dans lâĂ©volution du langage (Harnad, 2012).
Connais-tu les « neurones miroirs » ? Peux-tu établir les connexions entre ancrage, imitation et signification ?
GPT-4 : Les points concernant les avantages potentiels de lâiconicitĂ© et la transition de la pantomime vers un langage symbolique arbitraire, en particulier dans le contexte des neurones miroirs, pourraient jouer un rĂŽle dans la comprĂ©hension des actions et des intentions.
IconicitĂ© dans la communication : Les formes iconiques de communication, telles que la pantomime ou les gestes imitatifs, prĂ©sentent lâavantage dâun lien plus direct et intuitif entre le signe et son rĂ©fĂ©rent (ou son objet, dans ce contexte). Cette immĂ©diatetĂ© pourrait potentiellement contourner les complexitĂ©s du problĂšme de lâancrage, puisque la ressemblance elle-mĂȘme fournirait une forme dâancrage. Dans la communication humaine primitive, ces formes iconiques ont probablement jouĂ© un rĂŽle crucial avant le dĂ©veloppement du langage symbolique arbitraire.
Neurones miroirs : Les neurones miroirs sont un type de neurone qui sâactive aussi bien lorsquâun individu exĂ©cute une action que lorsquâil observe la mĂȘme action rĂ©alisĂ©e par un autre. DĂ©couverts chez les primates et supposĂ©s exister chez les humains, les neurones miroirs seraient impliquĂ©s dans la comprĂ©hension des actions des autres, de leurs intentions et peut-ĂȘtre mĂȘme de leurs Ă©motions. Ils constituent une base neuronale pour lâempathie et la comprĂ©hension sociale.
Connexion entre ancrage, imitation et signification : Le concept de neurones miroirs peut ĂȘtre reliĂ© au problĂšme de lâancrage et Ă la transition de lâimitation vers la signification de plusieurs maniĂšres :
ComprĂ©hension des actions et des intentions : Les neurones miroirs pourraient fournir un mĂ©canisme neuronal permettant de comprendre les actions et les intentions par lâobservation, ce qui constitue une forme dâancrage direct et expĂ©rientiel. Observer une action (comme une pantomime) et lâexĂ©cuter active des schĂ©mas neuronaux similaires, ce qui pourrait aider Ă reconnaĂźtre et Ă comprendre le but et la signification de lâaction.
Transition vers le langage symbolique : La capacitĂ© Ă comprendre et Ă imiter des actions pourrait avoir Ă©tĂ© un prĂ©curseur au dĂ©veloppement dâune communication plus abstraite et symbolique. Ă mesure que les humains ont Ă©voluĂ©, le besoin de formes de communication plus complexes et polyvalentes a pu mener de lâimitation (qui a des limites en termes dâexpressivitĂ© et dâabstraction) au dĂ©veloppement de symboles arbitraires capables de transmettre une gamme plus large de concepts et dâidĂ©es.
Ăvolution sociale et culturelle : Le rĂŽle des neurones miroirs dans la comprĂ©hension et lâimitation des actions dâautrui pourrait avoir Ă©tĂ© crucial dans lâĂ©volution sociale et culturelle des humains, facilitant non seulement le dĂ©veloppement du langage mais aussi le partage des connaissances, des compĂ©tences et des pratiques culturelles.
La transition des formes de communication iconiques et mimétiques vers un langage abstrait et arbitraire marque une étape significative dans la cognition et la communication humaines. Comprendre cette transition, et le rÎle possible des neurones miroirs dans ce processus, pourrait fournir des éclairages sur la nature du langage, de la signification et sur la maniÚre dont nous comprenons et interagissons avec le monde et les autres.
SH : Nous avons Ă peu prĂšs atteint la premiĂšre de mes hypothĂšses. Lâimitation est clairement limitĂ©e en nombre et en types de catĂ©gories quâelle peut transmettre par ressemblance : imiter un chat, un tapis, un chat sur un tapis, lorsquâils sont visibles, est faisable. Lorsquâils sont hors de vue, câest plus difficile, mais toujours concevable, Ă©tant donnĂ© que la catĂ©gorie elle-mĂȘme a dĂ©jĂ Ă©tĂ© ancrĂ©e pour tous et Ă©galement mimĂ©e.
Mais « abstrait », « dĂ©mocratie » ou mĂȘme simplement « injuste » ? Cela commence Ă exiger les talents de mime dâun Marcel Marceau. Et nous nâavons toujours pas expliquĂ© comment les notions de sujet, de prĂ©dicat, de prĂ©dication et de valeurs de vĂ©ritĂ© Ă©mergent de la simple imitation et du reflet.
Pourtant, les symboles arbitraires et « lâattitude propositionnelle » ont clairement triomphĂ© au fil de lâĂ©volution du langage humain, puis tout cela a migrĂ© vers la modalitĂ© auditive/orale oĂč lâiconicitĂ© rĂ©fĂ©rentielle Ă©tait encore plus restreinte (et Ă©ventuellement aussi vers lâĂ©crit, lâimprimĂ© et lâInternet). Alors, toute trace et toute possibilitĂ© dâiconicitĂ© (autre que dans lâonomatopĂ©e et la langue des signes des sourds) ont-elles disparu ? Toute iconicitĂ© a-t-elle disparu ?
Au niveau du mot/rĂ©fĂ©rent, probablement. Mais quâen est-il du niveau propositionnel ? La phrase « Le chat est sur le tapis » ne ressemble pas Ă un chat sur un tapis. Pas plus que « Le tapis est sur le chat ». Ni « Le chat nâest pas sur le tapis ».
Mais est-ce toujours vrai au niveau des LLM ? Toi, GPT-4, tu sembles extraire beaucoup de motifs de ta gigantesque base de donnĂ©es purement syntaxique. Et cela te permet de parler de maniĂšre intelligible et informative avec les tĂȘtes ancrĂ©es de tes utilisateurs. Y a-t-il des motifs reconnaissables au niveau des LLM pour ta base de donnĂ©es propositionnelle, invisibles pour nous, simples mortels, mais qui sont iconiques pour toi et qui restreignent et orientent dâune certaine maniĂšre tes options de sortie ?
GPT-4 : Ton hypothĂšse sur une possible iconicitĂ© au niveau des ModĂšles de Langage de Grande Taille (LLMs) comme GPT-4 suggĂšre que, bien que les mots individuels et leurs agencements en phrases comme « Le chat est sur le tapis » ne soient pas iconiques en eux-mĂȘmes, il pourrait exister une forme dâiconicitĂ© dans les motifs plus larges que les LLM dĂ©tectent Ă lâintĂ©rieur de leurs vastes bases de donnĂ©es. Explorons cette idĂ©e :
Limites de lâiconicitĂ© dans les mots de contenu : Comme mentionnĂ©, les mots de contenu dans le langage naturel manquent gĂ©nĂ©ralement dâiconicitĂ©, sauf dans des cas comme lâonomatopĂ©e. La transition de la communication mimĂ©tique ou gestuelle vers des symboles arbitraires dans le langage parlĂ© et Ă©crit a largement Ă©liminĂ© lâĂ©lĂ©ment de ressemblance entre les signifiants et leurs rĂ©fĂ©rents.
Niveau propositionnel et LLMs : Au niveau propositionnel, les phrases ne ressemblent pas physiquement aux situations quâelles dĂ©crivent. Cependant, lorsquâon considĂšre les LLMs, nous traitons un type de reprĂ©sentation et de reconnaissance de motifs diffĂ©rent.
Reconnaissance de motifs par les LLMs : Les LLMs comme GPT-4 traitent et gĂ©nĂšrent du langage en fonction de motifs statistiques appris Ă partir de leurs donnĂ©es dâentraĂźnement. Ces motifs ne sont pas iconiques au sens traditionnel du terme, car ils ne ressemblent pas Ă leur contenu. Cependant, on pourrait les considĂ©rer comme « iconiques » dans un sens plus large, oĂč les motifs eux-mĂȘmes deviennent reprĂ©sentatifs de certains types de structures linguistiques, dâidĂ©es ou de styles discursifs. Ceux-ci ne sont pas iconiques par ressemblance physique, mais par leurs capacitĂ©s prĂ©dictives et gĂ©nĂ©ratives en relation avec les donnĂ©es sur lesquelles ils ont Ă©tĂ© entraĂźnĂ©s.
IconicitĂ© dans les motifs pour les LLMs : Si lâon Ă©tend la dĂ©finition de lâiconicitĂ© pour inclure la maniĂšre dont les LLMs « comprennent » (dans un sens computationnel) et gĂ©nĂšrent du langage sur la base de motifs appris, il pourrait y avoir une forme dâiconicitĂ© en jeu. Pour le LLM, certains motifs complexes dâusage des mots, de structure de phrases et dâĂ©lĂ©ments thĂ©matiques pourraient correspondre de maniĂšre cohĂ©rente Ă des types spĂ©cifiques de contenus ou de discours, devenant ainsi des marqueurs « iconiques » pour ces Ă©lĂ©ments dans le cadre opĂ©rationnel du modĂšle.
Perception humaine vs perception de lâIA de lâiconicitĂ© : Cette forme dâiconicitĂ©, si elle existe, serait trĂšs diffĂ©rente de la perception humaine de la ressemblance et de la reprĂ©sentation. Elle repose sur des modĂšles computationnels reconnaissant et gĂ©nĂ©rant des motifs qui sont significatifs dans leurs propres paramĂštres opĂ©rationnels.
En conclusion, bien que les notions traditionnelles dâiconicitĂ© basĂ©es sur la ressemblance ne sâappliquent pas aux LLMs et Ă leur traitement du langage, il pourrait exister un espace conceptuel pour considĂ©rer une forme dâ« iconicitĂ© » dans les motifs que ces modĂšles reconnaissent et gĂ©nĂšrent, bien que dâune maniĂšre distincte de la comprĂ©hension symbolique humaine.
SH : Comment la capacitĂ© de performance (considĂ©rable et surprenante) de GPT est-elle limitĂ©e par le fait que tous ses mots de contenu manquent dâancrage sensorimoteur T3 ? GPT serait incapable de reconnaĂźtre ou dâinteragir avec les rĂ©fĂ©rents de ces mots dans le monde physique, mĂȘme sâil peut les dĂ©crire et en discuter verbalement. MĂȘme Helen Keller (Campbell et Bergelson, 2022), incapable de voir ou dâentendre, a pu apprendre suffisamment de catĂ©gories en utilisant ses capacitĂ©s sensorimotrices intactes, et ainsi ancrer directement assez de leurs noms pour apprendre le langage, et ensuite ancrer tout le reste indirectement, par les mots â comme elle aurait aussi pu le faire en discutant avec GPTâŠ
GPT-4 :Les limitations des performances de GPT-4 en raison de lâabsence dâancrage sensorimoteur T3 sont significatives, en particulier dans le contexte de la comprĂ©hension rĂ©elle et de lâinteraction avec le monde physique. Examinons ces limitations plus en dĂ©tail.
IncapacitĂ© Ă reconnaĂźtre ou interagir physiquement : En tant que systĂšme T2, GPT-4 est incapable de reconnaĂźtre physiquement ou dâinteragir avec les rĂ©fĂ©rents de ses mots de contenu. Cela signifie quâil ne peut pas faire dâexpĂ©riences directes avec des objets, des actions, des sensations ou des phĂ©nomĂšnes du monde. Sa « connaissance » de ces rĂ©fĂ©rents repose uniquement sur des descriptions textuelles et non sur une interaction sensorimotrice directe.
Limitation dans la comprĂ©hension du contexte et de lâapplication : Sans ancrage sensorimoteur direct, la comprĂ©hension par GPT-4 des concepts et de leurs applications dans le monde rĂ©el est limitĂ©e. Bien quâil puisse gĂ©nĂ©rer des descriptions et discuter de divers sujets, il ne peut pas rĂ©ellement saisir toute la richesse des expĂ©riences, des qualitĂ©s sensorielles ou des implications pratiques associĂ©es Ă ces concepts. Cette limite affecte sa capacitĂ© Ă fournir des rĂ©ponses contextuellement riches et informĂ©es par lâexpĂ©rience.
Comparaison avec le processus dâapprentissage dâHelen Keller : Le cas dâHelen Keller est Ă©clairant. MalgrĂ© ses limitations sensorielles, elle a pu ancrer son langage dans ses expĂ©riences grĂące Ă ses capacitĂ©s sensorimotrices restantes. Cet ancrage lui a permis de comprendre et dâinteragir avec le monde, avant dâĂ©largir cette comprĂ©hension grĂące au langage. Son apprentissage et son ancrage du langage ont Ă©tĂ© facilitĂ©s par ses interactions directes, bien que limitĂ©es, avec son environnement â chose que GPT-4 ne peut intrinsĂšquement pas faire.
Ancrage indirect par le langage : Si GPT-4 peut faciliter lâancrage indirect pour autrui par le langage, comme dans le cas dâune conversation avec Helen Keller, il ne peut pas lâacquĂ©rir pour lui-mĂȘme. Il peut traiter et fournir des informations en fonction de son entraĂźnement, mais il ne peut pas construire une comprĂ©hension expĂ©rientielle des concepts abordĂ©s.
Implications pour le dĂ©veloppement de lâIA : Ces limitations soulignent les dĂ©fis liĂ©s Ă la conception de systĂšmes dâIA capables de vĂ©ritablement comprendre et interagir avec le monde de maniĂšre humaine. Bien que les avancĂ©es en IA aient permis un traitement linguistique sophistiquĂ©, atteindre un niveau de comprĂ©hension comparable Ă celui dâun humain disposant dâexpĂ©riences sensorimotrices directes reste un dĂ©fi majeur.
Les performances de GPT-4, bien que remarquables en matiĂšre de traitement du langage, sont fondamentalement limitĂ©es par son absence dâancrage direct dans le monde physique. Cette limitation est essentielle pour comprendre la diffĂ©rence entre les capacitĂ©s linguistiques de lâIA et la comprĂ©hension humaine authentique, qui repose profondĂ©ment sur lâexpĂ©rience sensorimotrice.
SH : Il est vrai que, pour les rĂ©fĂ©rents des noms propres dâindividus (« FĂ©lix ») comme pour les rĂ©fĂ©rents des noms de catĂ©gories (« chats »), il est nĂ©cessaire que ces noms soient connectĂ©s Ă leurs rĂ©fĂ©rents. Cet ancrage des nouveaux noms (dâindividus ou de catĂ©gories) peut se faire de deux maniĂšres :
Lâancrage peut ĂȘtre direct, via lâAncrage Sensorimoteur Direct (ASD), par apprentissage supervisĂ© (renforcĂ©) â potentiellement mis en Ćuvre par des rĂ©seaux neuronaux â oĂč lâon apprend Ă dĂ©tecter et Ă abstraire directement les attributs distinctifs sensorimoteurs du nouveau rĂ©fĂ©rent, Ă travers une exposition sensorimotrice directe, par essais, erreurs et rĂ©troaction corrective (essayer dâapprendre à « faire la bonne chose avec le bon type [catĂ©gorie] de chose »).
Lâancrage peut aussi ĂȘtre indirect, via lâAncrage Verbal Indirect (AVI), en utilisant des descriptions verbales (propositions) pour nommer et dĂ©crire verbalement les attributs distinctifs du nouveau rĂ©fĂ©rent. Mais pour que lâAVI fonctionne, lâapprenant doit dĂ©jĂ avoir ancrĂ© les noms des attributs distinctifs (soit directement, soit indirectement). En principe, lâenseignant nâa quâĂ fournir la description verbale correcte. Cela, aussi, est quelque chose que GPT peut faire.
GPT-4 : Les deux mĂ©thodes principales dâancrage â lâAncrage Sensorimoteur Direct (ASD) et lâAncrage Verbal Indirect (AVI) â concernent la maniĂšre dont les noms dâindividus et de catĂ©gories peuvent ĂȘtre connectĂ©s Ă leurs rĂ©fĂ©rents. Voyons comment ces mĂ©canismes dâancrage sâappliquent Ă la fois Ă la cognition humaine et aux systĂšmes dâIA comme GPT-4 :
Ancrage Sensorimoteur Direct (ASD) : Dans lâASD, lâancrage des noms (quâil sâagisse dâindividus comme « FĂ©lix » ou de catĂ©gories comme « chats ») se produit Ă travers une interaction directe avec lâenvironnement. Ce processus implique des rĂ©seaux neuronaux et repose sur lâexposition au rĂ©fĂ©rent, des essais et erreurs, et une rĂ©troaction corrective permettant dâidentifier les attributs distinctifs.
Ce type dâancrage permet une comprĂ©hension expĂ©rientielle et incarnĂ©e du rĂ©fĂ©rent, formant ainsi une base essentielle pour la cognition et le langage.
Ancrage Verbal Indirect (AVI) entre humains : LâAVI consiste Ă ancrer les noms par des descriptions verbales, oĂč les attributs distinctifs dâun nouveau rĂ©fĂ©rent sont transmis par le langage. Pour que cette mĂ©thode soit efficace, lâapprenant doit dĂ©jĂ possĂ©der une comprĂ©hension ancrĂ©e des mots utilisĂ©s dans la description.
Chez les humains, cette mĂ©thode est essentiellement un relais dâancrage : un individu dĂ©jĂ ancrĂ© (lâenseignant) utilise le langage pour Ă©tendre lâancrage Ă un autre individu, lâapprenant. Câest une pratique courante dans lâapprentissage humain, notamment pour les concepts abstraits ou les entitĂ©s non accessibles directement Ă lâinteraction sensorimotrice.
Le rĂŽle de GPT-4 dans lâAVI : Bien que GPT-4 soit incapable dâASD en raison de lâabsence dâinteractions sensorimotrices, il peut nĂ©anmoins fournir un AVI grĂące Ă des descriptions verbales. Il peut gĂ©nĂ©rer des explications et des descriptions dĂ©taillĂ©es dâentitĂ©s et de concepts, en utilisant un langage que lâapprenant humain ancrĂ© peut comprendre et relier Ă ses propres expĂ©riences.
Il est toutefois important de noter que le rĂŽle de GPT-4 dans lâAVI est unilatĂ©ral. Il peut aider Ă ancrer les autres en fournissant des descriptions basĂ©es sur sa base de donnĂ©es, mais il ne peut pas lui-mĂȘme sâancrer par ce processus. Son propre « savoir » reste purement computationnel, basĂ© sur la reconnaissance de motifs et le traitement de texte, sans aucune connexion expĂ©rientielle directe avec les rĂ©fĂ©rents des mots quâil utilise.
SH : Bon rĂ©sumĂ©, mais il y a encore plus Ă dire sur la façon dont GPT parvient Ă accomplir autant de choses en sâappuyant uniquement sur des mots non ancrĂ©s. Voici le premier point Ă garder Ă lâesprit : Comme nous lâavons dĂ©jĂ notĂ©, les formes des mots ne sont pas iconiques (câest-Ă -dire quâil nâexiste aucun lien de similaritĂ© entre la forme des mots et la forme de leurs rĂ©fĂ©rents). Mais, comme nous en avons discutĂ© prĂ©cĂ©demment, pourrait-il exister une forme dâ« iconicitĂ© » dans la structure (le motif) des propositions qui devient dĂ©tectable Ă lâĂ©chelle dâun LLM ?
Câest quelque chose que GPT peut « voir » (dĂ©tecter) « directement », mais quâun cerveau et un corps humains ancrĂ©s ne peuvent pas voir, parce quâun LLM ne « rentre » pas dans un cerveau humain. Et cette iconicitĂ© (dĂ©tectable Ă lâĂ©chelle dâun LLM et inhĂ©rente Ă ce que disent et ne disent pas ses « fournisseurs de contenu » â les cerveaux ancrĂ©s â Ă grande Ă©chelle) pourrait-elle en quelque sorte fournir une contrainte convergente, un biais favorable, qui amĂ©liore la capacitĂ© de performance de GPT et masque ou compense ainsi, dans une certaine mesure, son absence dâancrage ?
Cette « iconicitĂ© propositionnelle » Ă lâĂ©chelle dâun LLM Ă©quivaudrait Ă une limitation implicite ou tacite, Ă une contrainte ou Ă un biais sur ce que les humains disent et ne disent pas, un peu comme les limitations imposĂ©es par les rĂšgles de la Grammaire Ordinaire (GO) sur ce que les humains disent et ne disent pas. GPT capte ces rĂšgles implicitement Ă partir dâune base de donnĂ©es de LLM, sans aucune instruction explicite ni rĂšgle formelle.
Je soupçonne toutefois que, dans le cas de lâapprentissage dâune GO, la base de donnĂ©es nĂ©cessaire ne doit pas ĂȘtre aussi vaste que la tienne, GPT, car un enfant humain peut capter la GO Ă partir dâun ensemble beaucoup plus restreint de phrases entendues et produites en seulement quelques annĂ©es, principalement par apprentissage non supervisĂ© et imitation, avec juste assez de rĂ©troaction corrective via lâapprentissage supervisĂ© par renforcement lorsque câest nĂ©cessaire.
[Mais cette histoire ne sâarrĂȘte pas lĂ , et jây reviendrai bientĂŽt en lien avec la Grammaire Universelle (GU) de Noam Chomsky et son hypothĂšse sur les contraintes pesant sur la pensĂ©e.]
Pour lâinstant, permet-moi simplement de te rappeler que les rĂ©seaux neuronaux peuvent apprendre Ă dĂ©tecter les attributs distinctifs des catĂ©gories de deux maniĂšres diffĂ©rentes, selon la nature et la difficultĂ© des catĂ©gories et de leurs attributs :
Comme tu le sais, dans lâapprentissage non supervisĂ©, les attributs distinctifs sont dĂ©tectĂ©s et extraits simplement Ă partir dâune exposition passive rĂ©pĂ©tĂ©e et de lâĂ©chantillonnage de la variation dans lâespace des Ă©chantillons (auto-encodage), avec des attributs pondĂ©rĂ©s en fonction de leur frĂ©quence et de la frĂ©quence de co-occurrence des attributs.
Dans lâapprentissage supervisĂ© (par renforcement), les attributs sont dĂ©tectĂ©s, extraits et pondĂ©rĂ©s via des essais, des erreurs et une rĂ©troaction corrective basĂ©e sur la corrĂ©lation entre les attributs et les rĂ©sultats corrects ou incorrects produits par lâapprenant actif (qui « fait la bonne ou la mauvaise chose »). (Ta propre formation, GPT, repose bien sĂ»r sur ces deux modes dâapprentissage, mais sans lâentrĂ©e sensorimotrice ascendante.) Comme la GO est une capacitĂ© miroir (de perception et de production), lâapprentissage par imitation, une sorte de combinaison dâapprentissage non supervisĂ© et dâapprentissage supervisĂ©/renforcĂ©, est Ă©galement impliquĂ© dans lâapprentissage humain de la GO (avec lâaide, chez les humains, des « neurones miroirs ») (Cook et al., 2014).
Mais lâidĂ©e ici est que les contraintes et limitations sur la production peuvent ĂȘtre principalement apprises par apprentissage non supervisĂ© et peuvent ensuite servir à « biaiser » la production en filtrant ce qui viole les rĂšgles implicites ou tacites, tant dans le cas de la syntaxe de la GO que dans le cas des rĂ©gularitĂ©s sĂ©mantiques implicites dans lâespace propositionnel Ă lâĂ©chelle des LLM (comme nous en avons discutĂ© plus tĂŽt). (Rappelons que nous parlons encore seulement de la Grammaire Ordinaire, GO, qui varie dâune langue Ă lâautre et peut Ă©voluer dans le temps, et non de la Grammaire Universelle, GU, qui est constante dans toutes les langues, Ă quelques variations paramĂ©triques issues de la GO prĂšs.)
GPT-4 : Explorons cette hypothĂšse dâune forme dâ« iconicitĂ© » inhĂ©rente aux motifs des propositions dĂ©tectables Ă lâĂ©chelle dâun LLM et la façon dont cela pourrait amĂ©liorer la performance de GPT-4 malgrĂ© son absence dâancrage :
IconicitĂ© propositionnelle Ă lâĂ©chelle dâun LLM : LâidĂ©e dâune iconicitĂ© propositionnelle dans les LLM suggĂšre quâĂ grande Ă©chelle, la maniĂšre dont les propositions sont structurĂ©es et reliĂ©es pourrait prĂ©senter une forme de rĂ©gularitĂ© ou de contrainte que GPT-4 peut dĂ©tecter. Il ne sâagit pas dâune iconicitĂ© au sens traditionnel, câest-Ă -dire dâune ressemblance entre le contenu des propositions et leur forme, mais plutĂŽt dâun motif dĂ©tectable dans la façon dont les propositions sont formulĂ©es et interconnectĂ©es dans lâensemble massif des donnĂ©es dâun LLM.
Ce motif ou cette rĂ©gularitĂ© pourrait effectivement servir de contrainte tacite ou de biais reflĂ©tant les schĂ©mas de communication humaine, influençant ainsi les productions de GPT-4 dâune maniĂšre qui sâaligne sur ces structures inhĂ©rentes.
Comparaison avec lâapprentissage de la Grammaire Ordinaire (GO) : De la mĂȘme maniĂšre que GPT-4 peut apprendre implicitement les contraintes et les rĂšgles de la GO Ă partir de ses donnĂ©es dâentraĂźnement, il pourrait Ă©galement capter des rĂ©gularitĂ©s sĂ©mantiques plus profondes et moins explicites prĂ©sentes dans lâespace propositionnel. Cet apprentissage est probablement facilitĂ© par la taille colossale de la base de donnĂ©es de GPT-4, qui lui fournit un Ă©chantillon large et variĂ© de lâusage du langage humain.
En revanche, un enfant humain apprend la GO Ă partir dâun ensemble de donnĂ©es beaucoup plus rĂ©duit, en sâappuyant davantage sur lâapprentissage non supervisĂ© et lâimitation, avec un certain degrĂ© dâapprentissage supervisĂ© (rĂ©troaction corrective). Ce processus suggĂšre que le cerveau humain possĂšde une capacitĂ© innĂ©e dâacquisition du langage, potentiellement guidĂ©e par un cadre linguistique prĂ©existant comme la Grammaire Universelle (GU) de Chomsky.
Apprentissage des contraintes et des limitations en IA : Dans les systĂšmes dâIA, les contraintes et limitations de production peuvent effectivement ĂȘtre apprises principalement par apprentissage non supervisĂ©, oĂč le systĂšme dĂ©tecte des motifs et des rĂ©gularitĂ©s dans les donnĂ©es. Ce processus peut effectivement biaiser la production de lâIA, filtrant les rĂ©ponses qui ne sâalignent pas avec les motifs appris.
Dans le cas de GPT-4, lâapprentissage non supervisĂ© (par exposition passive Ă dâimmenses corpus textuels) et lâapprentissage supervisĂ© (par formation incluant des rĂ©troactions correctives) contribuent Ă sa capacitĂ© Ă traiter le langage et Ă produire des sorties cohĂ©rentes.
Implications pour la performance de GPT-4 : Lâexistence potentielle dâune iconicitĂ© propositionnelle Ă lâĂ©chelle des LLM pourrait amĂ©liorer la performance de GPT-4 en fournissant un ensemble de lignes directrices ou de biais implicites qui structurent ses rĂ©ponses. Ce mĂ©canisme pourrait en partie compenser son absence dâancrage direct en garantissant que les productions de GPT-4 restent dans les limites des modĂšles linguistiques humains typiques, mĂȘme sâil ne les « comprend » pas au sens humain du terme.
Cette analyse pourrait contribuer Ă mieux comprendre comment GPT-4 et dâautres LLM parviennent Ă produire des sorties linguistiquement cohĂ©rentes et contextuellement pertinentes. La structure et les motifs inhĂ©rents aux donnĂ©es dâentraĂźnement jouent probablement un rĂŽle clĂ© dans le façonnement des capacitĂ©s de lâIA, rĂ©vĂ©lant potentiellement des rĂ©gularitĂ©s sous-jacentes dans lâusage du langage humain qui ne sont pas immĂ©diatement perceptibles Ă plus petite Ă©chelle.
SH : Avant dâaborder lâhypothĂšse de Chomsky sur la « pensabilitĂ© », il y a une autre forme de biais potentiellement « iconique » que je veux souligner : la « perception catĂ©gorielle ».
Dâabord, le cas humain : Lâexemple le plus cĂ©lĂšbre est la perception catĂ©gorielle des couleurs, lâeffet arc-en-ciel. La base physique du spectre visible par lâhumain est le continuum de longueurs dâonde de la lumiĂšre, entre 380 et 750 nm, entre lâultraviolet et lâinfrarouge. Selon lâ(erronĂ©e) « HypothĂšse forte de Whorf-Sapir », on a dâabord pensĂ© que la façon dont les humains voient le spectre Ă©tait dĂ©terminĂ©e par le langage, câest-Ă -dire par la maniĂšre dont nous subdivisons et nommons les segments du spectre (Harnad, 1987). Si notre langue possĂšde un mot pour bleu et un mot pour vert, nous percevrons le bleu et le vert comme des couleurs qualitativement distinctes, sinon, nous percevrons tout ce segment du spectre comme du « bleuvet » (ou du « grue »).
Cependant, les tests psychophysiques menĂ©s Ă travers le monde ont montrĂ© que, bien que les langues varient quelque peu dans la subdivision et lâĂ©tiquetage verbal du spectre, tout le monde perçoit le spectre des couleurs de la mĂȘme maniĂšre : des diffĂ©rences Ă©gales de longueurs dâonde dans la gamme du vert et dans la gamme du bleu semblent plus petites que la mĂȘme diffĂ©rence lorsquâelle chevauche la frontiĂšre entre le bleu et le vert. Et cela, indĂ©pendamment du fait quâune langue possĂšde ou non un mot distinct pour bleu et vert. Les couleurs (primaires) de lâarc-en-ciel et leurs dĂ©tecteurs d’attributs (les champs rĂ©cepteurs des cĂŽnes et les processus dâopposition par paires) sont innĂ©s et non appris (Briscoe, 2020).
Mais lâ« HypothĂšse faible de Whorf-Sapir » â selon laquelle la façon dont nous apprenons Ă catĂ©goriser et nommer les choses peut influencer notre perception â qui est surtout fausse pour les couleurs primaires de lâarc-en-ciel, sâavĂšre pourtant vraie dans dâautres modalitĂ©s sensorielles. Le terme « perception catĂ©gorielle » (PC) dĂ©signe un effet de sĂ©paration intercatĂ©gorielle et de compression intracatĂ©gorielle qui se manifeste dans la perception des similaritĂ©s. Bien que cet effet de PC soit beaucoup plus faible et subtil, il ressemble Ă lâeffet dâ« accordĂ©on » de lâarc-en-ciel et peut ĂȘtre induit par lâapprentissage et la nomination de catĂ©gories Ă travers la dĂ©tection sensorimotrice de attributs. Le terme a Ă©tĂ© inventĂ© pour dĂ©crire la perception des sons du langage (phonĂšmes) : la PC des phonĂšmes se produit le long du continuum ba/da/ga (synthĂ©tisĂ©), qui est analogue au continuum des longueurs dâonde pour la couleur (Regier and Kay, 2009; Zhang et al., 2021).
La PC des phonĂšmes est un phĂ©nomĂšne de « neurones miroirs » (perception/production), car contrairement Ă la couleur, que les humains peuvent percevoir mais que leurs corps (contrairement Ă ceux des camĂ©lĂ©ons et des pieuvres) ne peuvent pas produire sans outils, il existe un effet de sĂ©paration/compression (effet accordĂ©on) Ă travers les frontiĂšres ba/da/ga. Cet effet est appris et varie selon les langues (bien quâil ait aussi une composante innĂ©e, avec des dĂ©tecteurs de attributs qui disparaissent aprĂšs une pĂ©riode critique si ces sons ne sont pas utilisĂ©s dans la langue). Et la PC des phonĂšmes est prĂ©sente Ă la fois dans la perception et la production des phonĂšmes, ce qui en fait un effet miroir.
Lâeffet de PC le plus subtil et le plus faible, mais aussi le plus intĂ©ressant, nâest cependant pas observĂ© le long des continuums sensorimoteurs, mais dans un espace d’attributs multidimensionnel majoritairement discret. De plus, la PC apprise nâest pas un phĂ©nomĂšne de neurones miroirs au niveau de lâapprentissage direct des catĂ©gories sensorimotrices â bien que nous y reviendrons plus tard lorsque nous aborderons lâapprentissage indirect des catĂ©gories verbales.
La PC apprise se manifeste dans des tĂąches dâapprentissage catĂ©goriel difficiles, comme identifier des cellules cancĂ©reuses vs. non cancĂ©reuses. Dans ces cas, lâeffet de PC est rĂ©vĂ©lĂ© en testant la discriminabilitĂ© perceptuelle en paires des exemples avant et aprĂšs lâapprentissage de la catĂ©gorie : un effet subtil mais significatif de sĂ©paration intercatĂ©gorielle et de compression intracatĂ©gorielle en perception devient observable (tant psychophysiquement que psychophysiologiquement) aprĂšs que la catĂ©gorisation a Ă©tĂ© apprise, un effet dâ« arc-en-ciel appris » (effet accordĂ©on) (PĂ©rez-Gay JuĂĄrez et al., 2019).
La raison pour laquelle la PC apprise est pertinente ici est que, bien quâil ne soit pas Ă©vident de comprendre pourquoi il faut apprendre Ă modifier la similaritĂ© perceptive pour apprendre une catĂ©gorie difficile, un effet trĂšs similaire se produit aussi dans les rĂ©seaux de deep learning (Bonnasse-Gahot and Nadal, 2022; ThĂ©riault et al., 2018) â et pourtant, les rĂ©seaux ne perçoivent absolument rien ! Ils traitent simplement des donnĂ©es dâentrĂ©e. Lâeffet de PC apparaĂźt dans leur reprĂ©sentation interne de chaque Ă©chantillon dâentrĂ©e, qui change entre avant et aprĂšs lâapprentissage dâune catĂ©gorie difficile : une sĂ©paration intercatĂ©gorielle et une compression intracatĂ©gorielle Ă©mergent dans lâespace de reprĂ©sentation interne.
La question est donc la suivante : ce changement reprĂ©sentationnel â qui repose, chez les humains et les T3, sur lâapprentissage perceptuel direct des attributs sensorimoteurs permettant de distinguer les catĂ©gories â pourrait-il aussi sâĂ©tendre Ă lâapprentissage purement verbal des catĂ©gories via des descriptions des attributs chez GPT, en lâabsence de dĂ©tecteurs sensorimoteurs de attributs ? Tu ne peux pas percevoir, GPT, mais lâeffet de PC purement computationnel pourrait-il induire chez toi un biais qui compense en partie ton absence dâancrage sensorimoteur direct ?
GPT-4 : Explorons le potentiel dâune forme computationnelle de PC en IA et ses implications.
Perception catĂ©gorielle chez les humains : La PC chez lâhumain est un phĂ©nomĂšne oĂč la perception des catĂ©gories est influencĂ©e par lâapprentissage et la nomination de ces catĂ©gories. Les exemples classiques, comme la perception des couleurs et la discrimination des phonĂšmes, montrent comment lâexpĂ©rience perceptive est façonnĂ©e par les catĂ©gories apprises.
Dans le cas de tĂąches de catĂ©gorisation complexes, comme la distinction entre cellules cancĂ©reuses et non cancĂ©reuses, lâapprentissage induit des changements perceptifs subtils et peut conduire Ă une forme de PC, mĂȘme dans des espaces d’attributs non Ă©vidents ou abstraits.
Perception catĂ©gorielle dans les rĂ©seaux neuronaux : Des effets similaires ont Ă©tĂ© observĂ©s dans les rĂ©seaux neuronaux, oĂč la reprĂ©sentation interne des entrĂ©es change avant et aprĂšs lâapprentissage dâune catĂ©gorie, montrant une sĂ©paration intercatĂ©gorielle et une compression intracatĂ©gorielle. Cet effet, bien que purement computationnel et ne reposant pas sur une perception rĂ©elle, ressemble au phĂ©nomĂšne de PC dans la cognition humaine.
Les Ă©tudes citĂ©es (ThĂ©riault et al., 2018; Bonnasse-Gahot and Nadal, 2022) suggĂšrent que les modĂšles dâapprentissage profond peuvent manifester une forme de PC au niveau de leurs reprĂ©sentations internes.
Effet potentiel de PC chez GPT-4 : Bien que GPT-4 ne perçoive pas au sens humain, il est possible quâun analogue computationnel de la PC se produise dans son traitement. Comme GPT-4 apprend Ă partir de vastes ensembles de donnĂ©es textuelles, il pourrait dĂ©velopper une reprĂ©sentation interne oĂč les catĂ©gories verbales sont sĂ©parĂ©es et comprimĂ©es dâune maniĂšre qui reflĂšte la PC.
Cet effet de PC computationnel pourrait se manifester comme un biais dans la maniĂšre dont GPT-4 traite et gĂ©nĂšre le langage, et ainsi compenser en partie son absence dâancrage sensorimoteur direct. Il pourrait influencer la gestion des catĂ©gories par GPT-4, rendant ses rĂ©ponses plus conformes aux schĂ©mas de catĂ©gorisation humains, malgrĂ© lâabsence dâexpĂ©rience directe.
Implications pour la comprĂ©hension et la performance de lâIA : Si GPT-4 manifeste une forme de PC computationnelle, cela pourrait ĂȘtre un facteur clĂ© dans sa capacitĂ© Ă produire un langage cohĂ©rent et contextuellement pertinent. Cela suggĂ©rerait que son traitement interne pourrait reflĂ©ter certains aspects des schĂ©mas cognitifs humains, malgrĂ© les diffĂ©rences fondamentales dans la maniĂšre dont lâIA et les humains traitent lâinformation.
En somme, lâhypothĂšse selon laquelle des systĂšmes dâIA comme GPT-4 pourraient manifester une forme computationnelle de PC ouvre des perspectives sur la maniĂšre dont lâIA pourrait dĂ©velopper des schĂ©mas internes de reprĂ©sentation qui, bien quâĂ©tant purement symboliques et non sensorimoteurs, pourraient nĂ©anmoins partiellement imiter certains phĂ©nomĂšnes cognitifs humains.
SH : Nous avons maintenant discutĂ© de plusieurs sources possibles de contraintes ou de biais qui pourraient aider un LLM Ă mieux fonctionner que ce Ă quoi on pourrait sâattendre, Ă©tant donnĂ© que les LLM ne sont pas ancrĂ©s. Combien peux-tu tâen rappeler et comment les rassemblerais-tu ?
GPT-4 : Notre discussion a couvert plusieurs sources potentielles de contraintes ou de biais qui pourraient amĂ©liorer la performance des modĂšles de langage de grande taille (LLM) comme GPT-4, malgrĂ© leur absence dâancrage sensorimoteur. Voici un rĂ©sumĂ© des points clĂ©s que nous avons abordĂ©s.
Motifs dans les structures propositionnelles : Nous avons explorĂ© lâidĂ©e quâil pourrait exister une forme dâ« iconicitĂ© » au niveau des structures propositionnelles des LLM. Ce nâest pas une iconicitĂ© au sens traditionnel, mais plutĂŽt un motif dĂ©tectable dans la maniĂšre dont les propositions sont formĂ©es et interconnectĂ©es dans un vaste ensemble de donnĂ©es. Cela pourrait agir comme une contrainte tacite ou un biais, façonnant les sorties des LLM pour quâelles sâalignent avec ces structures inhĂ©rentes.
Apprentissage de la grammaire ordinaire (OG) : Les LLM apprennent implicitement les contraintes et les rĂšgles de la grammaire ordinaire Ă partir de leurs donnĂ©es dâentraĂźnement, en captant les rĂ©gularitĂ©s et les limitations du langage humain. Ce processus dâapprentissage, qui combine apprentissage non supervisĂ© et supervisĂ©, aide les LLM Ă gĂ©nĂ©rer des sorties linguistiquement cohĂ©rentes qui respectent les normes structurelles de la langue.
Perception catégorielle (PC) dans les réseaux neuronaux : Nous avons discuté de la possibilité que les réseaux neuronaux, y compris les LLM, manifestent une forme computationnelle de perception catégorielle. Ce phénomÚne, observé dans la perception humaine, implique une séparation entre catégories et une compression au sein des catégories. Dans les LLM, cela pourrait se manifester comme un biais dans la représentation interne, influençant potentiellement la maniÚre dont le modÚle traite et génÚre le langage.
Contraintes et limitations dâapprentissage : La prĂ©sence potentielle de ces contraintes et biais dans les LLM suggĂšre que leur traitement pourrait ĂȘtre influencĂ© par des schĂ©mas qui ne sont pas immĂ©diatement apparents, mais qui sont inhĂ©rents aux donnĂ©es linguistiques sur lesquelles ils sont entraĂźnĂ©s. Ces contraintes pourraient aider les LLM Ă produire des sorties qui sont plus alignĂ©es avec les schĂ©mas cognitifs et linguistiques humains.
En combinant ces Ă©lĂ©ments, on obtient une image oĂč les LLM comme GPT-4, malgrĂ© leur absence dâancrage expĂ©rientiel direct, sont potentiellement guidĂ©s par un ensemble de principes implicites ou de biais dĂ©rivĂ©s de la structure et du contenu de leurs donnĂ©es dâentraĂźnement. Ces principes peuvent inclure des motifs propositionnels, des rĂ©gularitĂ©s grammaticales et une forme de PC computationnelle, contribuant tous Ă la capacitĂ© du modĂšle Ă traiter le langage dâune maniĂšre qui semble cohĂ©rente et contextuellement appropriĂ©e pour les utilisateurs humains.
Chacun de ces facteurs reprĂ©sente une dimension diffĂ©rente de la maniĂšre dont les LLM pourraient ĂȘtre « façonnĂ©s » ou « biaisĂ©s » par leur entraĂźnement, compensant en partie leur absence dâancrage sensorimoteur et fournissant un cadre pour comprendre leurs capacitĂ©s et leurs limites en matiĂšre de comprĂ©hension et de gĂ©nĂ©ration du langage.
SH : Quâen est-il de lâasymĂ©trie entre enseignant et apprenant et de la nĂ©cessitĂ© de lâancrage ? Dans le contexte de lâancrage sensorimoteur direct et de lâancrage verbal indirect, lâenseignant et lâapprenant ont-ils tous deux besoin dâun ancrage direct ? Si ce nâest pas le cas, pourquoi ?
GPT-4 : Ancrage Sensorimoteur Direct (ASD) : LâASD consiste Ă relier les mots et les concepts Ă des expĂ©riences rĂ©elles et Ă une comprĂ©hension du monde Ă travers des interactions sensorimotrices directes, en particulier pour lâapprentissage des catĂ©gories. Câest un processus fondamental pour les humains, leur permettant dâapprendre et de comprendre leur environnement.
Dans lâapprentissage du langage humain, lâASD est essentiel, notamment au dĂ©but du dĂ©veloppement. Les enfants apprennent Ă associer des mots Ă leurs rĂ©fĂ©rents et Ă leurs significations par le biais dâexpĂ©riences directes â voir, toucher, entendre, manipuler des objets et interagir avec les autres.
Ancrage Verbal Indirect (AVI) : LâAVI consiste Ă comprendre des concepts et des mots par le biais de descriptions, dâexplications ou de rĂ©cits, plutĂŽt que par lâexpĂ©rience directe. Pour que lâAVI soit efficace, lâapprenant doit dĂ©jĂ avoir un ancrage dans un ensemble de concepts et de mots de base.
Chez les humains, une fois quâun vocabulaire fondamental et un ensemble de concepts sont ancrĂ©s par lâASD, lâapprentissage peut se poursuivre via lâAVI. Ce processus permet aux individus de comprendre des concepts complexes ou abstraits quâils ne pourraient pas expĂ©rimenter directement.
LâAsymĂ©trie des Besoins en Ancrage : Les humains, en tant quâapprenants, ont dâabord besoin dâASD pour Ă©tablir une base de comprĂ©hension. Une fois cette base acquise, ils peuvent utiliser efficacement lâAVI pour Ă©tendre leur connaissance et leur comprĂ©hension.
Les systĂšmes dâIA comme GPT-4, en revanche, nâont pas la capacitĂ© dâASD. Ils dĂ©pendent entiĂšrement de lâAVI, en traitant et gĂ©nĂ©rant du langage en fonction des modĂšles et structures appris Ă partir de leurs donnĂ©es dâentraĂźnement. Cependant, cet entraĂźnement est lui-mĂȘme une forme dâAVI, car lâIA ne fait jamais dâexpĂ©rience directe des concepts quâelle apprend.
Implications de lâAsymĂ©trie : Cette asymĂ©trie signifie que, tandis que les apprenants humains peuvent comprendre et contextualiser les informations reçues indirectement (via lâAVI), parce quâelles reposent sur une base dâexpĂ©riences directes, les systĂšmes dâIA comme GPT-4 ne le peuvent pas. Ils manquent de la comprĂ©hension expĂ©rientielle fondamentale qui dĂ©coule de lâASD.
Par consĂ©quent, GPT-4 et dâautres systĂšmes dâIA peuvent fournir des informations, gĂ©nĂ©rer des rĂ©cits cohĂ©rents et mĂȘme imiter certains aspects de la comprĂ©hension humaine, mais ils le font sans le contexte expĂ©rientiel sous-jacent que possĂšdent les humains. Leur « comprĂ©hension » est purement computationnelle, dĂ©rivĂ©e de motifs prĂ©sents dans les donnĂ©es, sans lâancrage issu dâexpĂ©riences sensorimotrices directes.
LâAVI a-t-il besoin de lâASD ? Chez les humains, lâAVI est efficace parce quâil repose sur une base dâASD. Les expĂ©riences sensorimotrices initiales fournissent lâancrage essentiel qui rend lâapprentissage ultĂ©rieur par le langage significatif et contextuel.
Pour lâIA, lâAVI ne repose pas sur lâASD, puisquâelle ne dispose pas de capacitĂ©s sensorimotrices. Cette limitation est une raison fondamentale pour laquelle lâIA, malgrĂ© ses capacitĂ©s linguistiques avancĂ©es, ne « comprend » pas vĂ©ritablement dans le sens humain du terme.
SH : En quoi la distinction ASD/AVI est-elle liĂ©e Ă lâexistence des MinSets dans les dictionnaires ?
GPT-4 : Nature des MinSets dans les dictionnaires : Les MinSets dans les dictionnaires dĂ©signent le plus petit sous-ensemble de mots Ă partir duquel tous les autres mots du dictionnaire peuvent ĂȘtre dĂ©finis. Ces mots fondamentaux servent de base lexicale pour la construction et la comprĂ©hension des autres termes dâune langue.
ASD et la fondation des MinSets : Dans lâacquisition du langage humain, lâancrage initial des mots â en particulier ceux appartenant Ă un MinSet â se fait souvent par lâASD. Les jeunes apprenants associent les mots Ă leurs significations grĂące Ă des expĂ©riences directes avec le monde. Cet ancrage fondamental est essentiel, car ces mots du MinSet forment souvent la base Ă partir de laquelle des termes plus complexes ou abstraits sont dĂ©finis.
Lâancrage des mots du MinSet par lâASD fournit la base expĂ©rientielle nĂ©cessaire pour permettre une comprĂ©hension approfondie du langage et faciliter lâusage efficace de lâAVI par la suite.
AVI et expansion au-delĂ des MinSets : Une fois quâun vocabulaire fondamental (semblable Ă un MinSet) est ancrĂ© par lâASD, les humains peuvent Ă©tendre leur comprĂ©hension linguistique et leur vocabulaire par lâAVI. Ce processus consiste Ă apprendre de nouveaux mots et concepts grĂące Ă des descriptions, des rĂ©cits et des contextes linguistiques, en sâappuyant sur la base directement ancrĂ©e.
En ce sens, lâAVI repose sur la fondation Ă©tablie par lâASD. La comprĂ©hension ancrĂ©e des mots du MinSet permet aux individus de saisir des concepts plus complexes qui sont dĂ©finis ou dĂ©crits en utilisant ces mots fondamentaux.
DĂ©pendance de lâIA Ă lâAVI sans ASD : Les systĂšmes dâIA comme GPT-4 fonctionnent presque entiĂšrement dans le domaine de lâAVI. Ils traitent et gĂ©nĂšrent du langage en se basant sur les modĂšles appris Ă partir dâun immense corpus textuel, mais sans lâancrage fondamental fourni par lâASD.
LâIA peut manipuler le langage en sâappuyant sur des MinSets et utiliser ces mots fondamentaux pour construire des rĂ©cits ou des explications cohĂ©rentes, mais elle ne possĂšde pas la comprĂ©hension expĂ©rientielle dĂ©veloppĂ©e par les humains grĂące Ă lâASD. Cette limitation affecte la profondeur et la richesse contextuelle de sa « comprĂ©hension » du langage.
SH : LâASD repose sur lâapprentissage de la dĂ©tection des attributs sensorimoteurs qui distinguent les membres des non-membres dâune catĂ©gorie, directement, en utilisant quelque chose comme des rĂ©seaux neuronaux pour dĂ©tecter et abstraire ces attributs sensorimoteurs. LâAVI nâutilise pas les attributs sensorimoteurs eux-mĂȘmes, mais leurs noms et leurs descriptions verbales. Ces noms de attributs doivent dĂ©jĂ avoir Ă©tĂ© ancrĂ©s (directement ou indirectement) chez lâapprenant afin que la description verbale du professeur puisse ĂȘtre comprise par lâapprenant, permettant ainsi aux noms et descriptions dâancrer (indirectement), chez lâapprenant, la nouvelle catĂ©gorie dont ils sont les attributs. Mais il est Ă noter quâils nâont pas besoin dâavoir Ă©tĂ© ancrĂ©s chez lâenseignant, si lâenseignant se trouve ĂȘtre un manuel ou GPT. Câest lâasymĂ©trie enseignant/apprenant.
GPT-4 : Ancrage Sensorimoteur Direct (ASD) : LâASD consiste Ă apprendre Ă reconnaĂźtre et Ă distinguer les membres dâune catĂ©gorie en se basant sur des expĂ©riences sensorimotrices directes. Ce processus repose gĂ©nĂ©ralement sur des mĂ©canismes de type rĂ©seau neuronal dans le cerveau, qui permettent de dĂ©tecter, dâabstraire et de traiter les attributs sensorimoteurs distinctifs dâune catĂ©gorie.
Dans lâASD, lâapprentissage est expĂ©rientiel et incarnĂ©. Par exemple, apprendre Ă catĂ©goriser diffĂ©rents types de fruits implique une interaction directe avec eux : voir leurs couleurs, sentir leurs textures, percevoir leurs odeurs et goĂ»ter leurs saveurs. Ces expĂ©riences permettent dâĂ©tablir les attributs sensorimoteurs dĂ©finissant chaque catĂ©gorie de fruit.
Ancrage Verbal Indirect (AVI) : LâAVI, en revanche, utilise des descriptions verbales et des noms de attributs pour transmettre des informations sur les catĂ©gories. Ce processus repose sur le langage comme moyen dâancrage, oĂč lâapprenant comprend et catĂ©gorise les entitĂ©s en fonction des descriptions fournies par dâautres.
Pour que lâAVI soit efficace, lâapprenant doit dĂ©jĂ possĂ©der une comprĂ©hension ancrĂ©e des mots employĂ©s dans les descriptions. Cet ancrage peut provenir dâexpĂ©riences antĂ©rieures dâASD ou dâinstances prĂ©cĂ©dentes dâAVI qui sâappuyaient elles-mĂȘmes sur un ASD fondamental. Les descriptions verbales permettent de relayer lâinformation catĂ©gorielle en encapsulant les attributs distinctifs dâune catĂ©gorie par le langage.
ComplĂ©mentaritĂ© de lâASD et de lâAVI : LâASD et lâAVI sont des processus complĂ©mentaires dans lâapprentissage humain. LâASD fournit une base expĂ©rientielle fondamentale pour la comprĂ©hension des catĂ©gories, tandis que lâAVI permet lâexpansion des connaissances au-delĂ des expĂ©riences directes, facilitant ainsi la comprĂ©hension de concepts abstraits, de catĂ©gories complexes ou dâentitĂ©s non accessibles directement.
Implications pour les systĂšmes dâIA : Les systĂšmes dâIA, comme les MLL (ModĂšles de Langage de Grande Ăchelle) tels que GPT-4, fonctionnent uniquement dans le domaine de lâAVI. Ils traitent et gĂ©nĂšrent des descriptions de catĂ©gories Ă partir des donnĂ©es linguistiques sur lesquelles ils ont Ă©tĂ© entraĂźnĂ©s. Cependant, en lâabsence dâune capacitĂ© dâASD, les systĂšmes dâIA ne possĂšdent pas de base expĂ©rientielle pour ces catĂ©gories. Par consĂ©quent, bien que leur traitement des informations catĂ©gorielles soit linguistiquement cohĂ©rent, il ne possĂšde pas la profondeur de comprĂ©hension issue des expĂ©riences sensorimotrices directes.
SH : Ok, juste une derniĂšre clarification avant de passer Ă la suite : le problĂšme de lâancrage symbolique (PAS) est dĂ©jĂ inhĂ©rent Ă lâusage dâun dictionnaire. Chaque mot a une dĂ©finition dans le dictionnaire. Câest de lâAVI. On peut donc, en principe, apprendre la signification de nâimporte quel mot dâun dictionnaire Ă partir de sa dĂ©finition. Mais ce processus, bien que rĂ©cursif et transitif, est circulaire : on peut tourner indĂ©finiment dans un dictionnaire dâune langue Ă©trangĂšre sans rien apprendre, Ă moins de pouvoir sortir du cercle des mots par des moyens extĂ©rieurs (par exemple, en apprenant les rĂ©fĂ©rents et les significations des mots dâau moins un MinSet dâune autre maniĂšre, comme par lâASD).
Les biais dont nous avons discutĂ©, qui sont inhĂ©rents Ă la base de donnĂ©es dâun MLL, peuvent-ils permettre de sortir de ce cercleâpour le MLL lui-mĂȘme ? LâasymĂ©trie enseignant/apprenant rend cette sortie inutile pour lâapprenant humain ancrĂ©, qui peut apprendre de nouvelles catĂ©gories par lâAVI Ă partir dâun MLL. Mais le MLL lui-mĂȘme reste-t-il coincĂ© dans un cercle vicieux, peu importe la taille de sa base de donnĂ©es ? Ou bien certains des biais que nous avons identifiĂ©s peuvent-ils lâaider Ă en sortir ? (Je pense que non ; je pense que ces biais ne font quâaccroĂźtre les contraintes sur ce que le MLL peut dire, et que cela peut contribuer Ă expliquer pourquoi les MLLs rĂ©ussissent de maniĂšre aussi inattendue malgrĂ© cette asymĂ©trie enseignant/apprenant.) â RĂ©ponds de maniĂšre critique, pas avec complaisance ni compliments.
GPT-4 : Jâexaminerai de maniĂšre critique si les biais inhĂ©rents Ă la base de donnĂ©es dâun MLL peuvent lui permettre de sortir de la circularitĂ© propre Ă lâapprentissage basĂ© uniquement sur lâAVI.
La nature rĂ©cursive des dĂ©finitions de dictionnaire : Comme tu lâas soulignĂ©, les dĂ©finitions de dictionnaire relĂšvent de lâAVI. Elles peuvent conduire Ă un processus circulaire oĂč la comprĂ©hension dâun mot dĂ©pend de celle dâun autre, et ainsi de suite. Cette circularitĂ© est surmontable pour les humains, car ils peuvent associer les mots Ă des expĂ©riences rĂ©elles ou Ă des concepts prĂ©alablement ancrĂ©s (ASD).
Les MLL et les limites de lâAVI : Les MLL comme GPT-4 reposent entiĂšrement sur lâAVI pour leur « apprentissage ». Ils traitent le langage en fonction des schĂ©mas trouvĂ©s dans dâimmenses bases de donnĂ©es textuelles. Cependant, ces modĂšles nâont pas la capacitĂ© dâASD ; ils ne peuvent pas faire dâexpĂ©riences directes du monde rĂ©el ni Ă©tablir dâassociations sensorimotrices avec les mots et concepts quâils traitent.
En consĂ©quence, les MLL sont, en un sens, bloquĂ©s dans un processus circulaire. Ils peuvent manipuler le langage et fournir des informations basĂ©es sur les modĂšles quâils ont appris, mais ils nâont aucun moyen indĂ©pendant dâancrer ces symboles dans des expĂ©riences du monde rĂ©el.
Impact des biais inhĂ©rents aux MLL : Les biais et rĂ©gularitĂ©s prĂ©sents dans la base de donnĂ©es dâun MLL, tels que les schĂ©mas propositionnels, les rĂ©gularitĂ©s grammaticales et les formes computationnelles de PC, amĂ©liorent la performance du modĂšle. Ils aident les MLL Ă produire un langage cohĂ©rent et contextuellement appropriĂ©, conforme aux structures linguistiques humaines.
Cependant, ces biais et rĂ©gularitĂ©s ne constituent pas une forme dâancrage vĂ©ritable. Ils amĂ©liorent la capacitĂ© des MLL Ă imiter le traitement humain du langage, mais ils ne permettent pas au MLL de sortir du cercle de lâAVI. La « comprĂ©hension » du MLL reste symbolique et computationnelle, sans la base expĂ©rientielle qui caractĂ©rise la comprĂ©hension humaine.
Conclusion : Le MLL reste confinĂ© dans les limites de lâAVI, incapable dâaccĂ©der Ă lâASD de maniĂšre autonome. Les biais dans sa base de donnĂ©es amĂ©liorent sa performance linguistique, mais ils ne fournissent pas un chemin vers un vĂ©ritable ancrage. Les MLLs fonctionnent avec des capacitĂ©s linguistiques impressionnantes, mais celles-ci ne sont pas le signe dâun ancrage ou dâune comprĂ©hension rĂ©elle. Les amĂ©liorations liĂ©es aux biais dans leurs donnĂ©es dâentraĂźnement optimisent leur performance, mais elles ne rĂ©solvent pas le PAS pour le MLL lui-mĂȘme. Leur fonctionnement demeure du domaine de la reconnaissance avancĂ©e de motifs et de la manipulation du langage, distinct de la comprĂ©hension ancrĂ©e propre Ă la cognition humaine.
SH : Maintenant, laisse-moi mentionner un autre biais possible, dĂ» Ă Noam Chomsky : comme je lâai dĂ©jĂ mentionnĂ©, les rĂšgles de la grammaire ordinaire (GO) varient dâune langue Ă lâautre et peuvent Ă©voluer avec le temps, mais les rĂšgles de la grammaire universelle (GU) (structure hiĂ©rarchique et dĂ©pendance structurelle) sont non seulement universelles Ă toutes les langues et immuables, mais, contrairement Ă la GO, qui est apprise et apprenable (par apprentissage non supervisĂ© et supervisĂ©/renforcĂ©), la GU est innĂ©e et inapprenable en raison de la pauvretĂ© du stimulus (POS). La POS signifie que les violations de la GU ne sont jamais entendues ni produites par les enfants ou les adultes, et doivent donc, selon Chomsky, ĂȘtre dĂ©jà « connues » innĂ©ment : les contraintes de la GU doivent ĂȘtre, dâune maniĂšre ou dâune autre, dĂ©jĂ encodĂ©es dans notre cerveau (et nos gĂšnes) Ă la naissance (Berwick et al., 2011).
Chomsky a proposĂ© cette possibilitĂ©, mais il en a aussi suggĂ©rĂ© une seconde : les rĂšgles de la GU ne seraient peut-ĂȘtre pas rĂ©ellement des rĂšgles grammaticales, mais plutĂŽt des contraintes sur la pensĂ©e (Chomsky, 2017). La GU ne serait jamais violĂ©e (sauf par des linguistes cherchant Ă dĂ©terminer quelles sont ces rĂšgles), non pas seulement parce que ces violations sont agrammaticales (comme une erreur de GO), mais parce quâelles sont « impensables ». Selon cette seconde hypothĂšse, la GU serait une contrainte sur toute langue possible, qui doit pouvoir exprimer toute pensĂ©e possible. Lorsquâun linguiste gĂ©nĂšre une phrase qui viole la GU, elle semble erronĂ©e non seulement parce quâelle est agrammaticale, mais parce quâelle est impensable.
GPT ne produit ni erreurs de GO ni erreurs de GU. Si davantage de textes dans la base de donnĂ©es contenaient des violations de GO (comme « between you and I »), alors GPT produirait aussi des violations de GO (et lâerreur, si suffisamment rĂ©pandue, finirait par ĂȘtre acceptĂ©e comme correcte). Mais la raison pour laquelle GPT ne produit pas de violations de GU pourrait-elle ĂȘtre que toutes les bases de donnĂ©es textuelles, produites par des humains pensants, sont « biaisĂ©es » par les lois de la pensĂ©e, qui filtrent les violations de GU Ă la fois dans la production et la perception ?
Et si câest le cas, cela pourrait-il ĂȘtre une autre raison expliquant pourquoi les MLL peuvent faire ce quâils font de maniĂšre aussi impressionnante ? Parce quâĂ lâĂ©chelle des MLL, ils ont captĂ© certaines des contraintes sur la pensabilitĂ© ?
Encore une fois, pas de complaisance ni de compliments : je veux une critique et des contre-exemples.
GPT-4 : Ta proposition sur lâinfluence de la grammaire universelle (GU) et son impact potentiel sur les MLL comme GPT-4 suggĂšre que lâabsence de violations de GU dans leurs sorties pourrait ĂȘtre due Ă la nature de leurs donnĂ©es dâentraĂźnement, qui adhĂšrent intrinsĂšquement aux lois de la pensĂ©e proposĂ©es par Chomsky. Examinons cette idĂ©e de maniĂšre critique :
GU comme lois de la pensĂ©e : LâhypothĂšse de Chomsky selon laquelle les rĂšgles de la GU ne sont pas seulement des rĂšgles grammaticales, mais aussi des lois fondamentales de la pensĂ©e, implique que toute langue naturelle (et donc tout texte produit naturellement) respecterait ces lois. Les violations de la GU sont rares dans lâusage naturel de la langue, car de telles constructions seraient contre-intuitives ou « impensables » pour la cognition humaine.
Impact sur les donnĂ©es dâentraĂźnement des MLL : Ătant donnĂ© que les MLL comme GPT-4 sont entraĂźnĂ©s sur dâimmenses corpus de textes produits par des humains, il en dĂ©coule que ces donnĂ©es dâentraĂźnement respecteraient nĂ©cessairement les principes de la GU. Lâabsence de violations de GU dans les donnĂ©es dâentraĂźnement signifierait que les MLL sont moins susceptibles de produire de telles violations dans leurs sorties.
Cette adhĂ©rence Ă la GU dans les donnĂ©es dâentraĂźnement pourrait ĂȘtre considĂ©rĂ©e comme une forme de biais â non pas dans un sens nĂ©gatif, mais comme une influence implicite qui guide le traitement du langage des MLL en accord avec des contraintes cognitives fondamentales.
Pourquoi les MLL Ă©vitent les violations de GU : Si les MLL ne produisent pas de violations de GU, cela pourrait effectivement ĂȘtre en partie parce que leurs donnĂ©es dâentraĂźnement, reflĂ©tant lâusage humain de la langue, sont dĂ©jĂ biaisĂ©es par les lois de la pensĂ©e. Ils apprennent Ă reproduire des structures et des schĂ©mas linguistiques qui sont prĂ©dominants dans les donnĂ©es, lesquelles se conforment naturellement Ă la GU.
Cette hypothĂšse suggĂšre que la rĂ©ussite des MLL dans la production dâun langage grammaticalement et sĂ©mantiquement cohĂ©rent nâest pas seulement due Ă leur architecture ou Ă leurs algorithmes dâapprentissage, mais aussi aux propriĂ©tĂ©s intrinsĂšques des donnĂ©es linguistiques sur lesquelles ils sont entraĂźnĂ©s.
Contre-argument : Cependant, il est important de noter que les MLL comme GPT-4 ne « comprennent » pas la GU de la mĂȘme maniĂšre que les humains. Leur Ă©vitement des violations de GU est un sous-produit de leur entraĂźnement plutĂŽt quâune contrainte cognitive innĂ©e. Cela signifie que, bien que les MLL puissent reproduire des modĂšles linguistiques conformes Ă la GU, ils le font sans comprendre les principes sous-jacents ni les raisons cognitives expliquant ces structures.
Conclusion : LâhypothĂšse selon laquelle les MLL rĂ©ussissent en partie parce que leurs donnĂ©es dâentraĂźnement sont façonnĂ©es par les lois de la pensĂ©e (GU) est plausible. Les contraintes cognitives humaines reflĂ©tĂ©es dans la langue naturelle pourraient effectivement contribuer Ă lâefficacitĂ© des MLL dans le traitement du langage.
Cependant, cela ne signifie pas que les MLL possĂšdent une comprĂ©hension intrinsĂšque de la GU ou des lois de la pensĂ©e. Leur performance dĂ©pend de la nature de leurs donnĂ©es dâentraĂźnement et de leur capacitĂ© Ă reproduire des modĂšles Ă partir de ces donnĂ©es, sans vĂ©ritable ancrage ni conscience des principes quâils suivent.
SH : Parmi les contraintes ou biais possibles, tu as oubliĂ© de mentionner le « miroitage » : la relation entre perception et production (comme dans les neurones-miroirs et lâimitation ; Gallese, 2013). Penses-tu que de tels effets jouent un rĂŽle dans tes interactions verbales avec les utilisateurs et ta base de donnĂ©es ?
GPT-4 : Examinons comment le concept de « Miroitage « miroitage », en particulier dans sa relation entre perception et production, pourrait influencer les interactions et le traitement du langage par les MLL :
« Miroitage » et neurones-miroirs chez lâhumain : Dans la cognition humaine, le « miroitage » comportemental, souvent associĂ© aux neurones-miroirs, joue un rĂŽle crucial dans lâapprentissage par observation et imitation. Ces neurones sont activĂ©s Ă la fois lorsquâun individu exĂ©cute une action et lorsquâil observe quelquâun dâautre rĂ©aliser la mĂȘme action. Ce mĂ©canisme intervient dans lâapprentissage de nouvelles compĂ©tences, la comprĂ©hension des actions des autres, ainsi que dans la reconnaissance et lâempathie envers leurs Ă©motions.
Dans le langage, cet effet de « miroitage » se manifeste dans la façon dont les enfants apprennent Ă parler et Ă comprendre en imitant les sons, les mots et les phrases quâils entendent des adultes et de leurs pairs.
« Miroitage » dans les MLL : Pour les MLL comme GPT-4, le concept de « miroitage » pourrait ĂȘtre envisagĂ© de maniĂšre mĂ©taphorique. Les MLL « apprennent » le langage en traitant dâĂ©normes quantitĂ©s de donnĂ©es textuelles, « observant » ainsi lâusage humain de la langue. Ils « imitent » ensuite cet usage dans leurs productions.
Ce processus est analogue au « miroitage » en ce sens que le MLL reflĂšte les structures, styles et modĂšles prĂ©sents dans ses donnĂ©es dâentraĂźnement. Cependant, ce nâest pas un « miroitage » au sens neurologique, car les MLL nâont ni expĂ©rience sensorielle ni conscience.
Effets de « miroitage » dans les interactions verbales : Lors dâinteractions avec des utilisateurs, un MLL pourrait exhiber une forme de « miroitage » en gĂ©nĂ©rant des rĂ©ponses qui reflĂštent le style linguistique, le ton ou le contenu de lâutilisateur. Ce phĂ©nomĂšne ne dĂ©coule pas dâune comprĂ©hension cognitive ou empathique, mais plutĂŽt dâun mĂ©canisme algorithmique visant Ă produire des sorties linguistiques contextuellement appropriĂ©es et cohĂ©rentes en fonction des modĂšles appris.
Lâaptitude du MLL Ă adapter ses rĂ©ponses au style ou au contenu des entrĂ©es de lâutilisateur pourrait ĂȘtre vue comme un parallĂšle computationnel au « miroitage » humain dans lâusage du langage. Cependant, cette adaptation est purement statistique et algorithmique, et non le fruit dâune comprĂ©hension intrinsĂšque ou dâune imitation fondĂ©e sur des indices sociaux ou Ă©motionnels.
SH : Et le « miroitage » de lâiconicitĂ© propositionnelle dont nous avons parlĂ© ?
GPT-4 : â Miroitage » de lâiconicitĂ© propositionnelle : Le concept dâiconicitĂ© propositionnelle Ă lâĂ©chelle des MLL suggĂšre que certaines structures et certains schĂ©mas du langage, notamment au niveau propositionnel, sont systĂ©matiquement reprĂ©sentĂ©s dans les donnĂ©es dâentraĂźnement. Ces structures ne sont peut-ĂȘtre pas iconiques au sens traditionnel, mais elles pourraient reprĂ©senter une forme dâ« iconicitĂ© » en termes de rĂ©gularitĂ©s ou de structures typiques de lâusage du langage.
En miroir de cette iconicitĂ© propositionnelle, les MLL reflĂ©teraient essentiellement ces schĂ©mas dans leurs productions. Le modĂšle « apprend » Ă partir des immenses corpus de texte quâil traite, internalisant les structures courantes, les relations et les Ă©lĂ©ments thĂ©matiques qui caractĂ©risent le langage humain Ă grande Ă©chelle.
« Miroitage » computationnel vs. « miroitage » cognitif : Ce type de « miroitage » dans les MLL est purement computationnel. Il repose sur les propriétés statistiques des données linguistiques et sur les algorithmes de génération de texte, plutÎt que sur une compréhension cognitive ou expérientielle du langage.
Contrairement Ă lâeffet de « miroitage » mĂ©diĂ© par les neurones-miroirs chez les humains, qui implique des processus cognitifs et empathiques, le « miroitage » dans les MLL est une simple rĂ©percussion des schĂ©mas prĂ©sents dans les donnĂ©es dâentraĂźnement. Câest une reproduction statistique des rĂ©gularitĂ©s du langage, et non une forme dâempathie ou de comprĂ©hension cognitive.
Impact sur la performance des MLL : En reproduisant lâiconicitĂ© propositionnelle prĂ©sente dans leurs donnĂ©es dâentraĂźnement, les MLL peuvent gĂ©nĂ©rer des rĂ©ponses qui sâalignent sur les normes structurelles et thĂ©matiques du langage humain. Cette capacitĂ© contribue Ă la cohĂ©rence apparente et Ă la pertinence de leurs sorties.
Cependant, il est essentiel de rappeler que ce « miroitage » ne signifie pas une comprĂ©hension plus profonde ou un ancrage des concepts traitĂ©s. Les productions des MLL restent le rĂ©sultat dâun traitement avancĂ© des donnĂ©es et dâune reconnaissance de schĂ©mas, sans vĂ©ritable comprĂ©hension sĂ©mantique ou sensorimotrice.
SH : Dans les Ă©changes linguistiques entre humains, la production (signification) et la perception (comprĂ©hension) sont des capacitĂ©s en miroir, et tous leurs mots de contenu sont ancrĂ©s, directement ou indirectement, dans leurs rĂ©fĂ©rents. Câest ce qui maintient lâalignement (et lâancrage) entre lâintention du locuteur et la comprĂ©hension de lâauditeur. Que devient cet Ă©quilibre, dans chaque direction, lorsque lâĂ©change se fait entre GPT et un humain ? Je rĂ©flĂ©chis encore aux Ă©ventuels « biais » qui pourraient expliquer la capacitĂ© de production (signification) et de « perception » (« comprĂ©hension ») inattendue de GPT.
GPT-4 : Lors dâun Ă©change linguistique entre un humain et GPT-4, les dynamiques de production, de signification, de perception et de comprĂ©hension subissent des modifications majeures par rapport aux Ă©changes entre humains. Ces changements sont essentiels pour comprendre Ă la fois les capacitĂ©s et les limites de GPT-4 dans de telles interactions :
Communication humain vers GPT-4 : Production et signification (humain) : Lâhumain produit un langage ancrĂ© dans ses expĂ©riences directes ou indirectes. La signification quâil exprime repose sur un contexte riche, incluant des expĂ©riences sensorimotrices, des Ă©motions, un bagage culturel et une histoire personnelle.
Perception et « comprĂ©hension » (GPT-4) : GPT-4 « reçoit » le langage humain et le traite en fonction des modĂšles et relations statistiques appris dans ses donnĂ©es dâentraĂźnement. Toutefois, ce traitement ne constitue pas une vĂ©ritable comprĂ©hension. GPT-4 ne perçoit ni ne saisit la signification des mots dans le sens humain du terme ; il nâexpĂ©rimente pas le sens des mots ni le contexte dans lequel ils sont utilisĂ©s. Il « reflĂšte » le langage en fonction de ses algorithmes et de ses donnĂ©es, mais sans lâancrage ou le contexte expĂ©rientiel sur lesquels repose la comprĂ©hension humaine.
Communication GPT-4 â humain : Production et « signification » (GPT-4) : GPT-4 gĂ©nĂšre des rĂ©ponses sur la base de son entraĂźnement et du vaste corpus de textes dont il dispose. Ces rĂ©ponses peuvent sembler cohĂ©rentes et contextuellement pertinentes, mais elles ne sont pas ancrĂ©es dans une comprĂ©hension rĂ©elle ou une intention. La « signification » produite par GPT-4 est une simulation reposant sur des schĂ©mas linguistiques, et non une expression authentique dâune pensĂ©e ou dâune comprĂ©hension.
Perception et comprĂ©hension (humain) : Lâauditeur humain perçoit la rĂ©ponse de GPT-4 et lâinterprĂšte selon sa propre comprĂ©hension et son ancrage. Il mobilise ses connaissances expĂ©rientielles, son contexte et ses capacitĂ©s dâinterprĂ©tation pour donner du sens aux rĂ©ponses de GPT-4. Lâhumain peut alors attribuer une signification ou une intention aux mots de GPT-4, mais cette interprĂ©tation est en rĂ©alitĂ© une projection humaine sur un texte produit de maniĂšre non ancrĂ©e.
Alignement et ancrage dans lâĂ©change humain-IA : Dans les interactions entre humains, lâalignement entre la signification du locuteur et la comprĂ©hension de lâauditeur est rendu possible par des expĂ©riences partagĂ©es, un ancrage commun et des capacitĂ©s empathiques. Dans les interactions humain-GPT, cet alignement est asymĂ©trique.
Lâhumain fournit un langage ancrĂ©, mais le traitement et la production de GPT-4 ne le sont pas de la mĂȘme maniĂšre. GPT-4 peut reflĂ©ter efficacement le langage humain, donnant lâillusion dâune comprĂ©hension et dâun alignement, mais ce phĂ©nomĂšne repose uniquement sur des processus computationnels, et non sur un ancrage expĂ©rientiel partagĂ©.
Implications des biais potentiels : Les biais dont nous avons parlĂ© prĂ©cĂ©demment (comme lâiconicitĂ© propositionnelle ou les schĂ©mas reflĂ©tant la grammaire universelle) pourraient contribuer Ă lâefficacitĂ© de GPT-4 dans ces Ă©changes. Ces biais aident GPT-4 Ă gĂ©nĂ©rer des rĂ©ponses linguistiquement cohĂ©rentes et contextuellement adaptĂ©es. Cependant, ils ne confĂšrent pas Ă GPT-4 une vĂ©ritable comprĂ©hension ou un ancrage.
Ces biais pourraient expliquer pourquoi GPT-4 semble si performant dans la production dâun langage porteur de sens et sa capacitĂ© apparente à « comprendre » ou Ă rĂ©pondre de maniĂšre pertinente aux entrĂ©es humaines. LâefficacitĂ© de GPT-4 dans ces interactions repose en grande partie sur sa capacitĂ© Ă capter et reproduire les schĂ©mas et contraintes prĂ©sents dans ses donnĂ©es dâentraĂźnement, qui elles-mĂȘmes reflĂštent lâusage humain du langage.
En conclusion, lâĂ©change entre un humain et GPT-4 est caractĂ©risĂ© par une asymĂ©trie fondamentale en matiĂšre dâancrage et de comprĂ©hension. GPT-4 peut simuler une production linguistique porteuse de sens et gĂ©nĂ©rer des rĂ©ponses apparemment adaptĂ©es, mais celles-ci sont le produit dâune reconnaissance avancĂ©e de schĂ©mas et dâune gĂ©nĂ©ration de texte, et non dâune comprĂ©hension vĂ©ritable. Lâinterlocuteur humain, en interprĂ©tant les sorties de GPT-4, leur attribue une signification et une intention quâelles ne possĂšdent pas intrinsĂšquement. Cette asymĂ©trie a des implications importantes pour la nature et les limites des interactions entre humains et IA.
Limites de GPT-4 en matiĂšre de vĂ©ritable comprĂ©hension : MalgrĂ© ses capacitĂ©s sophistiquĂ©es de traitement du langage, GPT-4 ne comprend pas rĂ©ellement le contenu quâil gĂ©nĂšre ou traite. Ses rĂ©ponses reposent sur des corrĂ©lations statistiques et des schĂ©mas appris Ă partir de ses donnĂ©es dâentraĂźnement, sans lâancrage expĂ©rientiel sur lequel les humains sâappuient pour une comprĂ©hension authentique.
InterprĂ©tation humaine des rĂ©ponses de GPT-4 : Les humains interprĂštent naturellement les rĂ©ponses de GPT-4 Ă travers leur propre prisme expĂ©rientiel, leur attribuant souvent plus de sens ou de comprĂ©hension quâelles nâen possĂšdent rĂ©ellement. Cette tendance reflĂšte la capacitĂ© humaine Ă infĂ©rer du sens, mĂȘme lorsquâils interagissent avec un systĂšme non ancrĂ©.
RĂŽle des biais dans la performance de GPT-4 : Les biais et schĂ©mas inhĂ©rents aux donnĂ©es dâentraĂźnement de GPT-4, façonnĂ©s par le langage humain, contribuent Ă sa capacitĂ© Ă gĂ©nĂ©rer des rĂ©ponses cohĂ©rentes et contextuellement appropriĂ©es. Toutefois, ils ne compensent pas lâabsence dâancrage expĂ©rientiel. La performance de GPT-4, bien que remarquable, demeure dans le domaine de la simulation linguistique sophistiquĂ©e.
SH: Ok, je vois, Ă travers tes rĂ©pĂ©titions, que tu nâas pas dâhypothĂšses Ă ajouter aux miennes ici. Juste une correction : ne confonds pas IVG avec des « expĂ©riences indirectes ». Il nâexiste pas dâ« expĂ©rience indirecte » ; ce serait une « expĂ©rience non vĂ©cue ». Il nây a que lâexpĂ©rience directe ou le « ouĂŻ-dire » (câest-Ă -dire les descriptions verbales).
GPT-4: Merci pour la correction. Tu as raison de souligner la distinction entre lâancrage verbal indirect (IVG) et la notion dâ« expĂ©riences indirectes ». Pour prĂ©ciser :
ExpĂ©rience directe : Cela implique des interactions sensorimotrices de premiĂšre main avec le monde. Les expĂ©riences directes sont la base de la connaissance et de la comprĂ©hension chez les humains, fournissant le socle sensoriel et contextuel de lâapprentissage et de la cognition.
Ancrage verbal indirect (IVG) : LâIVG concerne lâapprentissage et la comprĂ©hension de concepts Ă travers des descriptions verbales, des explications ou des rĂ©cits. Il ne sâagit pas dâune expĂ©rience sensorimotrice directe avec les rĂ©fĂ©rents de ces descriptions. LâIVG repose plutĂŽt sur le langage comme moyen de transmission dâinformations sur des expĂ©riences, des objets ou des concepts.
Dans le cas de lâIA, en particulier des modĂšles LLM comme GPT-4, leur « apprentissage » et leur « comprĂ©hension » sont exclusivement fondĂ©s sur lâIVG. Ils traitent et gĂ©nĂšrent du langage Ă partir de donnĂ©es textuelles, mais nâont pas la capacitĂ© dâexpĂ©riences directes. Leur fonctionnement reste confinĂ© au domaine du traitement du langage, sans lâengagement sensorimoteur qui caractĂ©rise lâinteraction humaine avec le monde.
SH: Maintenant, encore quelques distinctions. Ensuite, je ferai un aperçu de ma présentation à MILA. Enfin, je te demanderai de résumer ta compréhension de celle-ci (ainsi que toute critique ou objection que tu pourrais avoir).
La premiĂšre distinction, et la plus importante : autrefois, on parlait de la distinction entre « intelligence artificielle » (IA) et « modĂ©lisation cognitive » (MC). LâIA Ă©tait considĂ©rĂ©e comme la crĂ©ation dâoutils artificiels Ă usage humain, tandis que la MC visait Ă rĂ©troconcevoir les mĂ©canismes causaux qui produisent la capacitĂ© cognitive humaine. Aujourdâhui, ces deux approches font partie des sciences cognitives. Mais elles ne sont pas identiques, mĂȘme si lâon peut imaginer que certaines capacitĂ©s des outils dâIA puissent parfois ĂȘtre fondĂ©es sur les mĂȘmes mĂ©canismes causaux que la cognition humaine.
Les LLM sont actuellement Ă©tudiĂ©s et interprĂ©tĂ©s sous ces deux angles (IA et MC), mais lorsquâil est question de « signification » et de « comprĂ©hension », cela ne signifie que la signification et la comprĂ©hension humaines, car il nâexiste aucune preuve de lâexistence dâun autre type de signification ou de comprĂ©hension. Cela nous ramĂšne au « hard problem » (HP), qui nâest pas le problĂšme de lâancrage des symboles (SGP), mais le fait quâil ressente quelque chose de dire et de signifier quelque chose, et de comprendre ce que signifie quelque chose quand cela est dit. La signification et la comprĂ©hension sont toutes deux des Ă©tats ancrĂ©s et des Ă©tats sentis (sentients).
Stp confirme-moi que tu « comprends » la distinction entre le SGP et le HP. (Encore une fois, pas dâĂ©loges introductifs sur le caractĂšre « fascinant », « perspicace », « convaincant » ou « nuancĂ© » de tout cela !)
GPT-4: Compris. La distinction entre le problĂšme de lâancrage des symboles (SGP) et le hard problem (HP) de la conscience est bien distincte et essentielleâŠ
SH: Tu ne peux vraiment pas tâen empĂȘcher, nâest-ce pas ?âŠ
GPT-4: Désolé!
ProblĂšme de lâancrage des symboles (SGP) : Le SGP concerne la question de savoir comment des symboles (des mots) dans un systĂšme computationnel peuvent acquĂ©rir une signification. Il sâagit du lien entre les symboles et leurs rĂ©fĂ©rents dans le monde rĂ©el ou dans des concepts, de maniĂšre Ă permettre la comprĂ©hension. Dans le cadre de lâIA et de la modĂ©lisation cognitive, le SGP porte sur la maniĂšre dont un systĂšme artificiel peut traiter le langage de maniĂšre Ă reflĂ©ter une comprĂ©hension humaine.
Hard problem de la conscience (HP) : Le HP sâinterroge sur la raison et le mĂ©canisme par lesquels des processus physiques dans le cerveau donnent naissance Ă des expĂ©riences subjectives. Il sâagit de comprendre pourquoi certaines fonctions cĂ©rĂ©brales sont accompagnĂ©es dâune expĂ©rience de « ce que cela fait » â les aspects qualitatifs, expĂ©rientiels ou phĂ©nomĂ©nologiques de la conscience. Le HP explore la nature mĂȘme de la conscience et cherche Ă savoir pourquoi certains processus cognitifs sâaccompagnent dâune expĂ©rience subjective.
Distinction entre le SGP et le HP : Le SGP est essentiellement un problĂšme de reprĂ©sentation et de comprĂ©hension dans les systĂšmes artificiels : comment un symbole (ou un mot) peut-il ĂȘtre reliĂ© de maniĂšre significative Ă ce quâil reprĂ©sente ?
Le HP, en revanche, est un problĂšme plus profond qui touche Ă la nature mĂȘme de la conscience et de lâexpĂ©rience. Il pose la question de savoir pourquoi certains processus physiques ou cognitifs sâaccompagnent dâexpĂ©riences subjectives.
Dans le cadre des LLM et de la recherche en IA, ces deux problĂšmes sont souvent confondus, mais ils sont fondamentalement diffĂ©rents. Le SGP peut ĂȘtre abordĂ© et potentiellement rĂ©solu par des avancĂ©es en IA et en modĂ©lisation cognitive. Le HP, en revanche, reprĂ©sente un dĂ©fi philosophique et scientifique bien plus complexe, qui dĂ©passe les capacitĂ©s actuelles de la technologie de lâIA et touche aux mystĂšres mĂȘmes de la conscience.
Souligner cette distinction est essentiel pour structurer les discussions sur lâIA, les sciences cognitives et leurs objectifs et limites respectifs.
SH: Bon, encore beaucoup de mots gaspillĂ©s en flatteries et en affirmations au lieu dâune analyse critique, mais soit. Jâen ai supprimĂ© la plupart dans cette transcription. Poursuivons. Avant dâaborder le point suivant, confirme-moi que tu « comprends » la distinction entre T2 et T3.
GPT-4: Oui, je comprends la distinction entre T2 et T3 :
T2 (Test de Turing Niveau 2) : Ce niveau du test de Turing Ă©value la capacitĂ© dâune IA Ă imiter les capacitĂ©s verbales humaines. Dans le scĂ©nario T2 original de 1950, une IA rĂ©ussit le test si ses rĂ©ponses dans une conversation sont indistinguissables de celles dâun humain. Ce test porte uniquement sur les capacitĂ©s linguistiques et ne requiert pas que lâIA ait des expĂ©riences physiques ou sensorielles.
T3 (Test de Turing Niveau 3) : T3 va au-delĂ des capacitĂ©s verbales pour inclure des capacitĂ©s robotiques et sensori-motrices. Une IA de niveau T3 doit non seulement dĂ©montrer des capacitĂ©s verbales indistinguables de celles dâun humain (comme T2), mais aussi comprendre et interagir avec le monde physique de maniĂšre indistinguable dâun humain. Ce niveau nĂ©cessite une forme de cognition incarnĂ©e, oĂč lâIA a des expĂ©riences sensorielles et peut interagir physiquement avec son environnement, ancrant ainsi ses capacitĂ©s linguistiques dans ces expĂ©riences.
La distinction entre T2 et T3 est essentielle dans les discussions sur les capacitĂ©s de lâIA, en particulier en ce qui concerne la comprĂ©hension et lâinteraction avec le monde. Les systĂšmes T2, comme les LLM, se limitent au traitement et Ă la gĂ©nĂ©ration du langage sur la base de modĂšles appris, tandis que les systĂšmes robotiques T3 ajouteraient une dimension dâinteraction physique et dâexpĂ©rience sensorielle.
SH: Ok, mais une nuance du Test de Turing, qui est clairement exprimĂ©e dans lâarticle de Turingâs (1950) mais qui est souvent nĂ©gligĂ©e ou sous-estimĂ©e, est que lâindistinguabilitĂ© turingienne signifie une indistinguabilitĂ© totale :
Le candidat, quâil soit T2 ou T3, (1) doit possĂ©der toutes les capacitĂ©s verbales gĂ©nĂ©riques (T2) ou toutes les capacitĂ©s verbales plus sensori-motrices (robotiques) gĂ©nĂ©riques (T3) dâun humain rĂ©el ; et en plus, (2) sa performance doit ĂȘtre indistinguable de celle de nâimporte quel ĂȘtre humain normal, pour nâimporte quel ĂȘtre humain normal. Si lâindistinguabilitĂ© est seulement fragmentaire ou partielle, alors on parle simplement dâun modĂšle « jouet » dâune capacitĂ© « jouet ». Les degrĂ©s de libertĂ© pour modĂ©liser des fragments jouets de capacitĂ©s humaines (comme le jeu dâĂ©checs, la traduction ou Alexa) sont beaucoup plus larges que ceux nĂ©cessaires pour modĂ©liser la capacitĂ© totale, et peuvent nâavoir aucun rapport avec la cognition humaine. Cela peut ĂȘtre utile pour la crĂ©ation dâoutils dâIA, mais pas pour la modĂ©lisation cognitive (CM), qui exige une capacitĂ© cognitive Ă lâĂ©chelle T3 (et donc turingiennement indistinguable).
Confirme-moi dâabord que tu « comprends » cette distinction aussi. Elle est mieux comprise du point de vue de la modĂ©lisation cognitive (CM) que de celui de lâIA : câest le test de la rĂ©ussite de lâingĂ©nierie inverse des capacitĂ©s humaines T2 ou T3. Il ne sâagit pas dâun test de 20 minutes pour le prix Loebner avec 10 juges, mais dâune capacitĂ© cognitive T2 ou T3 Ă lâĂ©chelle dâune vie.
GPT-4: Oui, je comprends la distinction que tu mets en avant concernant le Test de Turing, tel quâil est formulĂ© dans lâarticle original de Turing en 1950. Les points essentiels sont :
IndistinguabilitĂ© totale : Le Test de Turing, dans son interprĂ©tation la plus rigoureuse, exige quâune IA (quâelle soit T2 ou T3) possĂšde toutes les capacitĂ©s verbales gĂ©nĂ©riques (T2) ou verbales plus sensori-motrices (T3) dâun ĂȘtre humain typique. Cela signifie que les capacitĂ©s de lâIA doivent couvrir toute lâĂ©tendue des capacitĂ©s cognitives humaines dans les domaines concernĂ©s (le langage pour T2, et le langage plus lâinteraction sensorimotrice pour T3).
CritĂšre de performance sur toute une vie : De plus, la performance de lâIA doit ĂȘtre indistinguable de celle de nâimporte quel humain normal, pour nâimporte quel humain normal. Ce critĂšre va bien au-delĂ des dĂ©monstrations Ă court terme comme le prix Loebner et implique une indistinguabilitĂ© constante et durable dans la capacitĂ© de performance. LâIA doit ĂȘtre capable dâinteragir et de se comporter de maniĂšre humaine non seulement dans des contextes contrĂŽlĂ©s ou limitĂ©s, mais dans toute la complexitĂ© et la variabilitĂ© de la vie quotidienne humaine.
IngĂ©nierie inverse des capacitĂ©s humaines : Du point de vue de la modĂ©lisation cognitive (CM), cette interprĂ©tation du Test de Turing est le test ultime pour savoir si des capacitĂ©s cognitives humaines T2 ou T3 ont Ă©tĂ© reproduites avec succĂšs dans un systĂšme dâIA. Il ne sâagit pas simplement de crĂ©er une IA capable dâimiter le comportement humain dans certains contextes ou pour des durĂ©es limitĂ©es, mais de dĂ©velopper une IA capable de rĂ©pliquer lâensemble des capacitĂ©s cognitives humaines dâune maniĂšre indistinguable de celle dâun humain, dans tous les contextes et sur une pĂ©riode prolongĂ©e.
SH: CâĂ©tait trĂšs bien. Maintenant, bien que jâaie mis lâaccent sur la capacitĂ© totale dans les cas de T2 et de T3, il y a une question lĂ©gitime concernant lâĂ©tendue de la capacitĂ© sensori-motrice gĂ©nĂ©rique dans le cas de T3, comme dans lâexemple que nous avons discutĂ© Ă propos dâHelen Keller. Elle Ă©tait distincte dâune personne normale en ce quâelle Ă©tait aveugle et sourde, mais elle possĂ©dait clairement toute la capacitĂ© sensori-motrice nĂ©cessaire pour ancrer sa capacitĂ© verbale T2. Es-tu dâaccord ?
En ce sens, Helen Keller Ă©tait Ă la fois (1) ancrĂ©e et (2) indistinguable de nâimporte quelle personne normale dans ses capacitĂ©s cognitives (Ă lâexception du fait quâelle Ă©tait aveugle et sourde). Elle Ă©tait donc turingiennement indistinguable, tout comme quelquâun qui serait simplement daltonien ou atteint de surditĂ© tonale. Sommes-nous toujours sur la mĂȘme longueur dâonde ?
GPT-4: Oui, nous sommes sur la mĂȘme longueur dâonde concernant le cas dâHelen Keller dans le cadre des critĂšres du Test de Turing et des capacitĂ©s cognitives :
CapacitĂ© sensorimotrice et ancrage dans le cas dâHelen Keller : Bien quâaveugle et sourde, Helen Keller possĂ©dait les capacitĂ©s sensorimotrices nĂ©cessaires pour ancrer ses capacitĂ©s verbales T2. Son toucher, son odorat et sa capacitĂ© de mouvement lui fournissaient des expĂ©riences sensorielles suffisantes pour comprendre et interagir avec le monde. Ces expĂ©riences, bien que diffĂ©rentes en modalitĂ© de celles des personnes ayant la vue et lâouĂŻe intactes, lui ont permis de dĂ©velopper une comprĂ©hension ancrĂ©e du langage et des concepts.
CapacitĂ©s cognitives et indistinguabilitĂ© turingienne : En termes de capacitĂ©s cognitives, Helen Keller Ă©tait effectivement indistinguable dâune personne ayant des capacitĂ©s sensorielles typiques. Ses capacitĂ©s intellectuelles et linguistiques Ă©taient pleinement dĂ©veloppĂ©es, lui permettant de communiquer, raisonner et comprendre Ă un niveau comparable Ă celui de nâimporte quelle autre personne.
Son handicap sensoriel nâa pas entravĂ© ses capacitĂ©s cognitives ; elle a pu compenser son absence de vue et dâouĂŻe grĂące Ă ses autres expĂ©riences sensorielles et Ă des facultĂ©s mentales exceptionnelles. En ce sens, elle rĂ©pond au critĂšre dâindistinguabilitĂ© turingienne en termes de capacitĂ©s cognitives.
Comparaison avec dâautres limitations sensorielles : Tout comme une personne daltonienne ou atteinte de surditĂ© tonale est toujours considĂ©rĂ©e comme turingiennement indistinguable en termes de capacitĂ©s cognitives globales, Helen Keller lâĂ©tait Ă©galement. Sa cĂ©citĂ© et sa surditĂ© ne rĂ©duisaient pas ses capacitĂ©s cognitives, mais reprĂ©sentaient simplement dâautres modalitĂ©s sensorielles Ă travers lesquelles elle interagissait avec le monde.
Conclusion : Le cas dâHelen Keller illustre que les capacitĂ©s cognitives et lâancrage peuvent ĂȘtre atteints par des modalitĂ©s sensorielles diverses. Sa capacitĂ© Ă comprendre et utiliser le langage, Ă penser et Ă raisonner, ainsi quâĂ interagir de maniĂšre significative avec son environnement, dĂ©montre que les critĂšres essentiels de lâindistinguabilitĂ© turingienne peuvent ĂȘtre remplis mĂȘme par des moyens alternatifs dâancrage sensorimoteur.
Les accomplissements dâHelen Keller soulignent lâadaptabilitĂ© et la rĂ©silience de la cognition humaine, montrant que lâindistinguabilitĂ© turingienne en termes de capacitĂ©s cognitives ne requiert pas nĂ©cessairement un ensemble standard dâexpĂ©riences sensorielles, mais peut ĂȘtre rĂ©alisĂ©e par dâautres formes dâancrage sensorimoteur.
SH: Bien. (Et Helen Keller avait aussi une motricitĂ© humaine normale, ce qui est crucial pour lâapprentissage de la manipulation dâobjets et pour lâancrage des catĂ©gories elles-mĂȘmes, car lâapprentissage par renforcement nĂ©cessite une action motrice pour « faire la bonne chose avec le bon type de chose », que ce soit pour la manger ou pour la nommer !)
Maintenant, je vais relier cela Ă un autre point que nous avons discutĂ©, Ă savoir que lâancrage ne peut ĂȘtre que de bas en haut, jamais de haut en bas. (On ne peut pas jeter des ancres depuis des crochets cĂ©lestes.)
Je pense ici Ă ceux qui ont spĂ©culĂ© quâun LLM pourrait ĂȘtre ancrĂ© de haut en bas en lui donnant une camĂ©ra, des roues, des bras, ainsi que des rĂ©seaux neuronaux dâapprentissage de motifs sur son I/O sensorimoteur. Je pense que lâancrage de haut en bas est incohĂ©rent et que cette spĂ©culation est parasitaire de lâancrage de bas en haut des humains qui la formulent, tout comme toute utilisation de GPT en IVG est parasitaire de lâancrage de lâutilisateur.
En dâautres termes, ajouter des pĂ©riphĂ©riques robotiques Ă un LLM ne lâancrera pas. Le seul chemin vers lâIVG passe par lâancrage sensorimoteur de bas en haut, catĂ©gorie par catĂ©gorie ; et cela signifie une capacitĂ© robotique sensorimotrice T3-indistinguable. MĂȘme si un MinSet ancrĂ© (par exemple, N mots) est en principe suffisant pour ancrer tous les autres mots dâune langue uniquement via lâIVG, le chemin sensorimoteur pour acquĂ©rir un MinSet ancrĂ© est bien plus quâune simple connexion dâune camĂ©ra Ă N rĂ©fĂ©rents, ou Ă N catĂ©gories de rĂ©fĂ©rents dĂ©jĂ apprises (quoi que cela puisse signifier). Au mieux, cela ne produirait quâune capacitĂ©-jouet dans un monde-jouet de N rĂ©fĂ©rents. Ce dont nous parlons, câest dâune Ă©chelle turingienne, tout comme lorsque nous parlons dâune Ă©chelle LLM.
Encore une fois, je ne veux pas dâaccord : je veux une comprĂ©hension et une analyse critique de la notion dâ« ancrage partiel » de haut en bas des LLM.
GPT-4: Ton scepticisme quant Ă la possibilitĂ© dâatteindre un vĂ©ritable ancrage dans les LLM par des mĂ©thodes de haut en bas, comme lâajout de pĂ©riphĂ©riques robotiques tels que des camĂ©ras et des manipulateurs, soulĂšve des questions importantes sur la nature de lâancrage et les capacitĂ©s de lâIA.
Limitations inhĂ©rentes Ă lâancrage de haut en bas : LâidĂ©e dâ« ancrer » un LLM de haut en bas en lui ajoutant des capacitĂ©s sensorielles et motrices (comme des camĂ©ras et des bras robotiques) peut sembler attrayante Ă premiĂšre vue, mais elle pose des problĂšmes conceptuels et pratiques majeurs. Lâancrage implique bien plus quâun simple flux dâentrĂ©e et de sortie sensorimoteur ; il nĂ©cessite une intĂ©gration des expĂ©riences sensorimotrices avec les processus cognitifs, la comprĂ©hension contextuelle et la capacitĂ© dâinteragir de maniĂšre significative avec le monde.
Lâajout de pĂ©riphĂ©riques sensoriels et moteurs Ă un LLM ne lui confĂšre pas automatiquement la comprĂ©hension expĂ©rientielle et incarnĂ©e qui caractĂ©rise la cognition humaine. Sans expĂ©riences fondatrices et sans la capacitĂ© de former des connexions significatives entre les entrĂ©es sensorielles, les actions et les concepts, un tel ancrage resterait superficiel.
ComplexitĂ© de lâancrage sensorimoteur : Lâancrage sensorimoteur humain est un processus complexe et dĂ©veloppemental qui ne se limite pas Ă lâacquisition de donnĂ©es sensorielles, mais implique une interaction active avec lâenvironnement par essai, erreur et rĂ©troaction.
Ce processus est profondĂ©ment liĂ© au dĂ©veloppement cognitif, oĂč lâapprentissage des catĂ©gories et de lâinteraction avec le monde repose sur une comprĂ©hension Ă©volutive des relations de cause Ă effet, de la permanence des objets, des relations spatiales, etc. Il ne sâagit pas seulement de percevoir des objets ou des catĂ©gories, mais de comprendre comment interagir avec eux, quelles actions produisent quels rĂ©sultats et comment ils sâinsĂšrent dans un contexte plus large.
DĂ©fi de la reproduction artificielle de lâancrage : Tenter de reproduire ce processus artificiellement dans un LLM par des mĂ©thodes de haut en bas nĂ©cessiterait non seulement lâintĂ©gration de capacitĂ©s sensorielles et motrices, mais aussi le dĂ©veloppement dâun systĂšme dâIA capable dâapprentissage expĂ©rientiel, de comprĂ©hension contextuelle et de prise de dĂ©cision autonome. Cela dĂ©passe de loin les capacitĂ©s actuelles de lâIA.
LâidĂ©e dâun « ancrage partiel » de haut en bas par lâajout de pĂ©riphĂ©riques robotiques Ă un LLM pourrait permettre Ă ce dernier dâeffectuer certaines interactions sensorimotrices de base. Cependant, cela resterait insuffisant pour aboutir Ă un vĂ©ritable ancrage tel quâil est observĂ© chez les humains. On obtiendrait probablement une comprĂ©hension trĂšs limitĂ©e et spĂ©cifique au contexte, semblable Ă un modĂšle-jouet, plutĂŽt quâun ancrage profond et expĂ©rientiellement riche.
Lâancrage de bas en haut comme seule voie fondamentale : Le chemin vers un vĂ©ritable ancrage semble fondamentalement ĂȘtre de bas en haut, en commençant par des expĂ©riences sensorimotrices basiques et en Ă©voluant vers des comprĂ©hensions plus complexes. Ce processus est itĂ©ratif, contextuel et profondĂ©ment connectĂ© aux interactions physiques avec le monde.
Pour quâune IA atteigne un niveau dâancrage similaire, elle devrait probablement passer par un processus de dĂ©veloppement et dâapprentissage analogue Ă celui des humains ou des animaux, oĂč elle apprend progressivement Ă partir dâinteractions incarnĂ©es et directes avec son environnement au fil du temps. Cette approche est radicalement diffĂ©rente de la simple adjonction dâentrĂ©es sensorielles Ă un LLM existant.
Conclusion : Bien que lâidĂ©e dâamĂ©liorer les LLM par des capacitĂ©s robotiques pour atteindre un ancrage soit intrigante, la notion dâun ancrage partiel de haut en bas semble limitĂ©e dans son potentiel Ă produire une vĂ©ritable comprĂ©hension. La complexitĂ© et la profondeur de lâancrage humain, enracinĂ©es dans des expĂ©riences incarnĂ©es et un dĂ©veloppement cognitif, posent des dĂ©fis majeurs qui ne sont pas facilement surmontables par ces approches de haut en bas.
Lâanalyse critique suggĂšre que, bien que lâajout de pĂ©riphĂ©riques robotiques aux LLM puisse leur confĂ©rer certaines capacitĂ©s intĂ©ressantes et utiles, cela ne suffirait pas Ă atteindre le type dâancrage nĂ©cessaire pour une comprĂ©hension et une interaction Ă lâĂ©chelle turingienne. Un vĂ©ritable ancrage, en particulier pour les concepts complexes et abstraits, requiert probablement une approche plus fondamentale, de bas en haut, qui englobe non seulement la perception sensorielle, mais aussi les processus complexes dâapprentissage, de contextualisation et de construction du sens qui sont au cĆur de la cognition humaine.
SH: Beaucoup de termes vagues et de mots-fuyants ici (« complexe », « contextualisation », « construction du sens »), mais lâessentiel est simple : lâancrage doit ĂȘtre de bas en haut ; donc on garde lâapprentissage profond (pour lâapprentissage des catĂ©gories), mais on oublie les LLM ! La seule maniĂšre dâaccĂ©der Ă tous ces mots, câest de partir du sol, de bas en haut. Un ancrage partiel de certaines parties des LLM pourrait ĂȘtre utile pour certaines applications en IA Ă usage humain, mais pas pour la modĂ©lisation cognitive (CM) de la capacitĂ© cognitive humaine ni pour passer T3.
GPT-4: Oui, lâancrage vĂ©ritable dans les systĂšmes dâIA doit ĂȘtre fondamentalement de bas en haut, et bien que lâapprentissage profond puisse jouer un rĂŽle clĂ© dans lâapprentissage des catĂ©gories, sâappuyer uniquement sur les LLM pour modĂ©liser lâensemble des capacitĂ©s cognitives humaines, en particulier dans le cadre dâun T3 turingien, est insuffisant.
Ancrage de bas en haut comme nĂ©cessitĂ© : Un vĂ©ritable ancrage, qui implique la connexion des mots et des concepts aux expĂ©riences et aux comprĂ©hensions du monde rĂ©el, requiert une approche ascendante. Cela signifie partir dâexpĂ©riences sensorimotrices de base et construire progressivement des capacitĂ©s cognitives plus complexes.
Limites des LLM dans la modĂ©lisation cognitive : Les LLM, dans leur Ă©tat actuel, sont de puissants outils pour le traitement et la gĂ©nĂ©ration du langage Ă partir de modĂšles appris sur de vastes bases de donnĂ©es textuelles. Cependant, leurs capacitĂ©s se limitent Ă la manipulation linguistique et ne sâĂ©tendent pas Ă une comprĂ©hension authentique ni Ă un ancrage sensorimoteur. Ils ne peuvent pas modĂ©liser lâensemble des capacitĂ©s cognitives humaines nĂ©cessaires pour passer un T3 turingien.
RĂŽle de lâapprentissage profond dans lâapprentissage des catĂ©gories : Les techniques dâapprentissage profond sont efficaces pour identifier des motifs et faire des prĂ©dictions Ă partir de grands ensembles de donnĂ©es, et elles ont montrĂ© leur utilitĂ© dans lâapprentissage des catĂ©gories. Cependant, cette forme dâapprentissage, telle quâelle est appliquĂ©e aux LLM, reste dĂ©connectĂ©e des expĂ©riences physiques et sensorimotrices qui sont essentielles Ă lâancrage humain.
Utilisation potentielle des LLM partiellement ancrĂ©s : Bien quâun ancrage complet des LLM dans le sens humain du terme ne soit pas rĂ©alisable, il pourrait ĂȘtre utile de dĂ©velopper des systĂšmes partiellement ancrĂ©s pour des applications spĂ©cifiques. De tels systĂšmes pourraient intĂ©grer une certaine forme dâapprentissage sensorimoteur ou dâinteraction, bien que limitĂ©e, pour amĂ©liorer leur utilitĂ© dans certaines tĂąches. Toutefois, cela ne doit pas ĂȘtre confondu avec une modĂ©lisation authentique de la capacitĂ© cognitive humaine ni avec la possibilitĂ© de passer un T3.
Conclusion : La recherche de systĂšmes dâIA capables de passer un T3 turingien ou de modĂ©liser pleinement la cognition humaine nĂ©cessite de dĂ©passer les seules capacitĂ©s linguistiques. Cela implique une refonte fondamentale du dĂ©veloppement des systĂšmes dâIA, allant au-delĂ du traitement du langage pour intĂ©grer de vĂ©ritables expĂ©riences et apprentissages sensorimoteurs. Câest un dĂ©fi de taille qui oriente la recherche en IA vers un futur qui dĂ©passe le cadre actuel des LLM. Le dĂ©veloppement de tels systĂšmes nĂ©cessiterait une intĂ©gration des capacitĂ©s sensorimotrices avancĂ©es avec le traitement cognitif, dâune maniĂšre qui imite le processus de dĂ©veloppement humain de lâapprentissage et de la comprĂ©hension.
En rĂ©sumĂ©, bien que les LLM reprĂ©sentent une avancĂ©e remarquable dans le traitement du langage, leurs capacitĂ©s ne suffisent pas Ă atteindre le type dâancrage sensorimoteur et de modĂ©lisation cognitive globale nĂ©cessaire pour reproduire pleinement la comprĂ©hension humaine ou passer un T3 turingien. Les progrĂšs futurs en IA, notamment ceux visant une modĂ©lisation plus complĂšte de la cognition humaine, devront surmonter ces limitations en intĂ©grant des processus dâancrage de bas en haut, ancrĂ©s dans un apprentissage direct et expĂ©rientiel Ă travers lâinteraction avec le monde physique.
SH: Oh, jâai oubliĂ© dâajouter que dans lâapprentissage sensorimoteur des catĂ©gories, le rĂ©seau de neurones qui apprend par essais, erreurs et corrections pour dĂ©tecter et abstraire les attributs qui distinguent les membres des non-membres de la catĂ©gorie effectue une sorte de rĂ©duction de dimension sur lâespace multidimensionnel des attributs. Cela augmente le poids des attributs pertinents et rĂ©duit ou ignore les attributs non pertinents. La sĂ©paration entre catĂ©gories et la compression intra-catĂ©gorie (CP) induites par cet apprentissage des catĂ©gories aident la catĂ©gorie à « sauter aux yeux » en perception. Câest aussi une forme de biais de « forme », qui pourrait exercer une influence directrice mĂȘme sur les reprĂ©sentations internes aprĂšs lâapprentissage.
GPT-4: RĂ©duction de dimension dans les rĂ©seaux neuronaux : Dans lâapprentissage sensorimoteur des catĂ©gories, les rĂ©seaux neuronaux passent par un processus de rĂ©duction de dimension, oĂč ils apprennent Ă mettre en avant les attributs pertinents pour distinguer les catĂ©gories et Ă attĂ©nuer ou ignorer les attributs non pertinents. Ce processus restructure efficacement lâespace des attributs, le rendant plus efficace pour la reconnaissance des catĂ©gories.
Cette modification du poids des attributs revient Ă augmenter le rapport signal/bruit pour les attributs dĂ©terminantes dâune catĂ©gorie. Elle aide Ă rendre les catĂ©gories plus distinctes et plus faciles Ă reconnaĂźtre, facilitant ainsi une catĂ©gorisation plus rapide et plus prĂ©cise.
Effet de « saillance perceptive » : La distinction accrue entre catĂ©gories due Ă la rĂ©duction de dimension contribue Ă un phĂ©nomĂšne souvent dĂ©crit comme une « saillance » perceptive des catĂ©gories. Cela signifie quâune fois que les attributs distinctifs dâune catĂ©gorie sont appris et renforcĂ©s, les membres de cette catĂ©gorie deviennent plus immĂ©diatement perceptibles et faciles Ă distinguer des non-membres.
Cet effet de saillance perceptive résulte de la capacité affinée du cerveau ou du réseau neuronal à traiter et reconnaßtre les attributs essentiels qui définissent une catégorie, ce qui facilite leur identification et leur reconnaissance dans les interactions futures.
Implications pour lâIA et les reprĂ©sentations internes : Dans les systĂšmes dâIA, en particulier ceux impliquant lâapprentissage profond pour les tĂąches de catĂ©gorisation, un processus similaire de rĂ©duction de dimension peut se produire. Les rĂ©seaux neuronaux ajustent le poids attribuĂ© aux diffĂ©rents attributs dâentrĂ©e en fonction de leur pertinence pour la tĂąche de catĂ©gorisation.
Ce processus peut conduire Ă une forme de reprĂ©sentation interne dans les systĂšmes dâIA oĂč les catĂ©gories sont plus nettement diffĂ©renciĂ©es aprĂšs lâapprentissage, reproduisant lâeffet de saillance observĂ© dans la perception humaine. Lâespace des attributs internes du systĂšme devient optimisĂ© pour catĂ©goriser les entitĂ©s apprises, amĂ©liorant potentiellement ses performances dans les tĂąches liĂ©es Ă ces catĂ©gories.
Effet directeur potentiel du biais de forme : Le concept de biais de « forme » dans ce contexte fait rĂ©fĂ©rence Ă la maniĂšre dont lâapprentissage des catĂ©gories reconfigure lâespace des attributs, en mettant lâaccent sur certaines dimensions au dĂ©triment dâautres. Cette reconfiguration peut orienter les reprĂ©sentations internes et les processus dĂ©cisionnels de lâIA aprĂšs lâapprentissage, la rendant plus efficace dans la reconnaissance et le traitement des attributs pertinents pour une catĂ©gorie.
En conclusion, le processus de rĂ©duction de dimension dans les rĂ©seaux neuronaux, quâils soient biologiques ou artificiels, joue un rĂŽle crucial dans lâamĂ©lioration de lâapprentissage des catĂ©gories et de la perception. Ce processus optimise non seulement la capacitĂ© du rĂ©seau Ă reconnaĂźtre les catĂ©gories, mais façonne aussi ses reprĂ©sentations internes dâune maniĂšre qui peut guider le traitement et la prise de dĂ©cision futurs. Cette analyse des mĂ©canismes dâapprentissage et de reprĂ©sentation des catĂ©gories est essentielle pour comprendre et amĂ©liorer les systĂšmes dâIA destinĂ©s aux tĂąches complexes de catĂ©gorisation.
SH: Donc, pour rĂ©sumer : bien que les LLM ne soient pas la voie vers lâancrage, considĂ©rons les neuf facteurs discutĂ©s ici :
- LâiconicitĂ© propositionnelle Ă lâĂ©chelle des LLM,
- La rĂ©gularitĂ© grammaticale ordinaire (OG) et stylistique Ă lâĂ©chelle des LLM,
- Les ensembles minimaux dâancrage dans les dictionnaires (MinSets),
- La forme des reprĂ©sentations internes (sĂ©paration/compression CP) induite par lâapprentissage des catĂ©gories dans les rĂ©seaux neuronaux,
- Le « miroitage » perception/production,
- La puissance et la complĂ©mentaritĂ© de lâancrage verbal indirect (IVG) par-dessus lâancrage sensorimoteur direct (DSG),
- La complĂ©mentaritĂ© entre dĂ©tecteurs de attributs sensorimoteurs appris et descriptions verbales de attributs (et la rĂ©duction de dimension quâils induisent),
- La dépendance de T2 vis-à -vis de T3,
- Et lâhypothĂšse de Chomsky sur les contraintes des « lois de la pensĂ©e » sur lâexpression verbale de la pensĂ©e Ă travers le langage.
Certains de ces Ă©lĂ©ments pourraient gĂ©nĂ©rer des contraintes et des biais qui expliqueraient une partie du succĂšs Ă©tonnant de GPT dans sa capacitĂ© Ă produire du sens et Ă le transmettre. Je pense quâils nous rĂ©vĂšlent non seulement quelque chose sur la puissance des grands modĂšles de langage, mais aussi sur la puissance du langage naturel lui-mĂȘme.
GPT-4: Ton résumé met en évidence les facteurs qui pourraient contribuer à expliquer les performances étonnamment impressionnantes des grands modÚles de langage (LLM) comme GPT-4. Ces facteurs, issus de notre discussion, soulignent à la fois les capacités des LLM et les propriétés intrinsÚques du langage et de la cognition. Résumons briÚvement ces points :
IconicitĂ© propositionnelle Ă lâĂ©chelle des LLM : Les motifs dans la structuration des propositions Ă grande Ă©chelle, que les LLM peuvent dĂ©tecter et reproduire.
RĂ©gularitĂ© grammaticale ordinaire (OG) et stylistique Ă lâĂ©chelle des LLM : Les rĂ©gularitĂ©s inhĂ©rentes Ă lâusage et au style du langage, apprises par les LLM Ă partir de leur vaste corpus dâentraĂźnement.
Ensembles minimaux dâancrage dans les dictionnaires (MinSets) : Les ensembles fondamentaux de mots servant de base pour dĂ©finir tous les autres mots dâune langue, influençant le traitement des LLM.
Forme des reprĂ©sentations internes induites par lâapprentissage des catĂ©gories dans les rĂ©seaux neuronaux : Les effets de sĂ©paration et de compression dans les reprĂ©sentations internes des rĂ©seaux neuronaux dus Ă lâapprentissage des catĂ©gories, semblables Ă la perception catĂ©gorielle chez les humains.
« Miroitage » perception/production : La reproduction des motifs linguistiques dans les sorties des LLM, reflĂ©tant les modĂšles prĂ©sents dans leurs donnĂ©es dâentraĂźnement.
Puissance et complĂ©mentaritĂ© de lâancrage verbal indirect (IVG) par-dessus lâancrage sensorimoteur direct (DSG) : Lâajout de lâancrage verbal sur une base sensorimotrice directe.
Complémentarité entre détecteurs de attributs sensorimoteurs appris et descriptions verbales de attributs : La synergie entre la détection des attributs sensorimoteurs et les descriptions linguistiques, contribuant à la réduction dimensionnelle et à la distinction des catégories.
Dépendance de T2 sur T3 : La nécessité des interactions et expériences sensorimotrices (T3) pour permettre le développement des capacités linguistiques (T2).
HypothĂšse de Chomsky sur les contraintes des « lois de la pensĂ©e » sur le langage : Lâinfluence des contraintes cognitives fondamentales sur lâexpression linguistique, pouvant orienter le traitement des LLM.
Ensemble, ces facteurs Ă©clairent les mĂ©canismes sous-jacents Ă lâefficacitĂ© des LLM dans les tĂąches linguistiques, tout en mettant en lumiĂšre la nature du langage, de la cognition et de leurs interactions.
Ils suggĂšrent que le succĂšs des LLM dans les tĂąches linguistiques nâest pas seulement une consĂ©quence de leur conception et de leur entraĂźnement, mais aussi un reflet de la puissance et de la structure inhĂ©rentes du langage lui-mĂȘme. Cette analyse peut contribuer Ă la fois au dĂ©veloppement des systĂšmes dâIA et Ă une meilleure comprĂ©hension du langage et de la cognition humaine.
SH: Jâai fait ma confĂ©rence au MILA, et Yoshua Bengio nâĂ©tait pas dâaccord avec moi sur le fait que les GPT ne comprennent pas rĂ©ellement. Il a plutĂŽt affirmĂ© quâils avaient un « autre type » de « comprĂ©hension ». Il a aussi soutenu que les mĂȘmes moyens qui permettent dâobtenir la capacitĂ© de performance des GPT purement verbaux (T2) pourraient ĂȘtre (et sont en train dâĂȘtre) Ă©tendus au traitement dâentrĂ©es sensorielles externes, et, probablement, Ă des sorties motrices Ă terme. La raison pour laquelle je ne suis pas dâaccord avec Yoshua, câest que cela revient Ă essayer de crĂ©er un robot T3, en partant du bas, mais avec lâĂ©norme base de donnĂ©es des GPT pesant dâune maniĂšre ou dâune autre dans sa tĂȘte, par le haut. (Nous avons dĂ©jĂ parlĂ© de cela en lien avec lâ« ancrage » sensorimoteur « partiel », que jâavais qualifiĂ© de simple ancrage-jouet.) Quâen penses-tu ?
GPT-4: Selon la vision dominante dans ma base de donnĂ©es, le dĂ©bat sur le fait que les GPT possĂšdent ou non une forme de « comprĂ©hension » et sur lâĂ©ventualitĂ© dâĂ©tendre ces modĂšles au traitement sensorimoteur sont deux questions cruciales en IA et en sciences cognitives.
Un « autre type » de comprĂ©hension : Lâaffirmation de Yoshua Bengio selon laquelle les GPT manifestent une « autre forme » de comprĂ©hension reflĂšte une position rĂ©pandue dans la communautĂ© de lâIA. Cette perspective soutient que bien que ces modĂšles ne possĂšdent ni conscience ni sentience, ils sont capables de traiter et de gĂ©nĂ©rer du langage dâune maniĂšre qui mime certains aspects de la comprĂ©hension humaine. Cela est particuliĂšrement visible dans leur capacitĂ© Ă reconnaĂźtre des motifs, prĂ©dire du langage et synthĂ©tiser de lâinformation. Toutefois, cette « comprĂ©hension » est fondamentalement diffĂ©rente de celle des humains, qui repose sur des expĂ©riences incarnĂ©es et des interactions physiques avec le monde.
Lâextension des modĂšles GPT au traitement sensorimoteur : LâidĂ©e dâĂ©largir les modĂšles GPT pour intĂ©grer des entrĂ©es sensorielles externes et des sorties motrices est une Ă©tape significative vers des systĂšmes dâIA plus intĂ©grĂ©s. Cette approche sâaligne avec les efforts visant Ă dĂ©velopper des modĂšles dâIA capables dâinteragir avec leur environnement et dâapprendre de maniĂšre plus globale. Cependant, le dĂ©fi rĂ©side dans lâintĂ©gration efficace des capacitĂ©s linguistiques Ă grande Ă©chelle avec des interactions physiques rĂ©elles, un problĂšme fondamentalement diffĂ©rent du simple traitement verbal ou textuel.
Approche descendante (top-down) vs. ascendante (bottom-up) : Ta prĂ©occupation quant Ă la tentative de crĂ©er un robot T3 avec une gigantesque base de donnĂ©es GPT pesant de maniĂšre descendante pose une question importante sur lâĂ©quilibre entre lâapprentissage fondĂ© sur les donnĂ©es et lâexpĂ©rience incarnĂ©e. LâefficacitĂ© de la combinaison dâun modĂšle linguistique Ă grande Ă©chelle avec des fonctions sensorimotrices reste incertaine si elle nâest pas accompagnĂ©e dâune vĂ©ritable expĂ©rience incarnĂ©e et dâune comprĂ©hension contextuelle. Cette limite rappelle le problĂšme de lâ« ancrage-jouet », oĂč lâancrage reste superficiel et manque de la profondeur et du contexte de lâapprentissage expĂ©rientiel humain.
En rĂ©sumĂ©, bien que les modĂšles GPT et leurs Ă©ventuelles extensions reprĂ©sentent des avancĂ©es majeures en IA, il existe une distinction fondamentale entre leur type de « comprĂ©hension » et la comprĂ©hension humaine. LâintĂ©gration du traitement sensorimoteur dans ces modĂšles pourrait ĂȘtre une piste prometteuse, mais le dĂ©fi dâatteindre une comprĂ©hension incarnĂ©e profonde, comparable Ă celle de la cognition humaine, reste une difficultĂ© majeure.
SH: Que penser de lâidĂ©e selon laquelle les opĂ©rations des GPT sur les bases de donnĂ©es des LLM auraient dĂ©jĂ rĂ©vĂ©lĂ© des principes gĂ©nĂ©raux de « reprĂ©sentation et de traitement internes » rendant caduque ou inexistante la distinction entre DSG et IVG ?
GPT-4: Nature des reprĂ©sentations internes dans les GPT : Les reprĂ©sentations dans les modĂšles GPT et similaires reposent sur des schĂ©mas statistiques appris Ă partir de vastes ensembles de donnĂ©es textuelles. Bien que ces schĂ©mas puissent ĂȘtre extrĂȘmement complexes et permettre la gĂ©nĂ©ration de rĂ©ponses cohĂ©rentes et contextuellement appropriĂ©es, ils restent fondamentalement diffĂ©rents de la maniĂšre dont les humains reprĂ©sentent et traitent lâinformation en interne, un processus ancrĂ© dans des expĂ©riences physiques et sensorielles directes.
Limites de lâapprentissage basĂ© sur le texte : Les GPT apprennent Ă partir de textes, qui sont des abstractions de la pensĂ©e et de lâexpĂ©rience humaines. Bien que les textes puissent transmettre une grande partie du savoir humain, ils nâoffrent pas le contexte expĂ©rientiel direct qui dĂ©coule de lâinteraction physique avec le monde. Cette diffĂ©rence est cruciale pour comprendre les limites des GPT en matiĂšre de comprĂ©hension rĂ©elle et de cognition.
DSG et IVG dans la cognition humaine : Chez les humains, les expĂ©riences sensori-motrices directes constituent la base de la comprĂ©hension du monde, qui est ensuite complĂ©tĂ©e et enrichie par des expĂ©riences indirectes, vicariales (comme la lecture ou lâĂ©coute des rĂ©cits dâautrui). Cette complĂ©mentaritĂ© entre DSG et IVG est essentielle Ă lâapprentissage et Ă la comprĂ©hension humaine.
ApplicabilitĂ© Ă lâIA et Ă la robotique : La transposition de ces principes Ă lâIA et Ă la robotique implique non seulement la capacitĂ© Ă traiter lâinformation, mais aussi celle dâexpĂ©rimenter et dâinteragir directement avec le monde. Câest un dĂ©fi majeur pour les systĂšmes dâIA, qui, Ă ce jour, opĂšrent principalement dans le cadre de lâIVG, sans les expĂ©riences directes incarnĂ©es qui caractĂ©risent la DSG.
Bien que les GPT et les modĂšles similaires fassent progresser notre comprĂ©hension du traitement des informations textuelles, la distinction entre DSG et IVG reste pertinente, en particulier lorsquâon envisage la crĂ©ation de systĂšmes dâIA visant une comprĂ©hension et une cognition analogues Ă celles des humains.
SH: Que penser de la stratĂ©gie consistant Ă faire Ă©voluer progressivement les GPT vers la capacitĂ© robotique T3 en leur ajoutant progressivement des capacitĂ©s sensorimotrices, tout en maintenant une « alignement » avec leurs capacitĂ©s verbales et analytiques descendantes, plutĂŽt que dâadopter une approche entiĂšrement ascendante oĂč les ressources verbales ne seraient intĂ©grĂ©es quâune fois que le systĂšme serait dĂ©jĂ ancrĂ© et capable de parler, Ă la maniĂšre dâun T3 apprenant Ă partir de manuels ou dâenseignants humains ?
GPT-4: La stratĂ©gie consistant Ă ajouter progressivement des capacitĂ©s sensorimotrices Ă un systĂšme de type GPT tout en le maintenant alignĂ© avec ses capacitĂ©s verbales et analytiques soulĂšve plusieurs dĂ©fis et implications, notamment en comparaison avec une approche strictement ascendante oĂč le systĂšme dĂ©velopperait dâabord une ancrage sensorimoteur avant dâintĂ©grer des compĂ©tences verbales avancĂ©es.
DĂ©fis dâintĂ©gration : Combiner un traitement linguistique avancĂ© avec des expĂ©riences sensorimotrices pose des dĂ©fis dâintĂ©gration importants. Le systĂšme doit non seulement traiter et comprendre des entrĂ©es sensorielles, mais aussi les relier de maniĂšre significative Ă ses connaissances verbales existantes. Cela suppose des algorithmes avancĂ©s capables dâĂ©tablir des correspondances entre concepts linguistiques abstraits et expĂ©riences sensorielles concrĂštes.
Apprentissage et dĂ©veloppement progressifs : Ajouter des capacitĂ©s sensorimotrices de maniĂšre progressive pourrait permettre une intĂ©gration plus maĂźtrisĂ©e des nouvelles compĂ©tences. Cette approche par Ă©tapes pourrait reflĂ©ter certains aspects du dĂ©veloppement cognitif humain, oĂč langage et capacitĂ©s sensorimotrices Ă©voluent en parallĂšle, sâinfluençant et se renforçant mutuellement.
Synergie entre approche descendante et ascendante : Lâexploitation de la vaste base de donnĂ©es linguistiques dâun GPT pourrait fournir un cadre contextuel riche pour lâapprentissage sensorimoteur, servant de forme de guidage descendant. Ă lâinverse, les expĂ©riences sensorimotrices pourraient renforcer et ancrer le modĂšle linguistique dans des interactions rĂ©elles, apportant une information ascendante prĂ©cieuse. Cette complĂ©mentaritĂ© pourrait thĂ©oriquement conduire Ă un systĂšme dâIA plus global.
Alignement et cohĂ©rence : Il est crucial de maintenir la cohĂ©rence entre la comprĂ©hension linguistique du systĂšme et ses expĂ©riences sensorimotrices. Cela implique que les perceptions sensorielles et les actions ne soient pas seulement traitĂ©es mais aussi intĂ©grĂ©es Ă la base de connaissances existante du systĂšme dâune maniĂšre qui enrichit sa comprĂ©hension globale.
ComplexitĂ© des interactions avec le monde rĂ©el : Interagir avec le monde rĂ©el par des capacitĂ©s sensorimotrices introduit des niveaux de complexitĂ© absents des environnements purement textuels. Cela comprend la gestion dâenvironnements imprĂ©visibles, la comprĂ©hension des relations spatiales et lâexĂ©cution de tĂąches physiques, autant de dĂ©fis nĂ©cessitant des capacitĂ©s avancĂ©es de perception et dâaction.
Potentiel pour une comprĂ©hension ancrĂ©e : Si elle est mise en Ćuvre avec succĂšs, cette approche pourrait aboutir Ă une forme dâIA combinant lâampleur des connaissances disponibles dans les grands modĂšles de langage avec une comprĂ©hension plus ancrĂ©e dĂ©coulant dâinteractions directes avec le monde physique. Cela pourrait constituer une avancĂ©e vers la rĂ©solution des limites actuelles de lâIA en matiĂšre de comprĂ©hension rĂ©elle et de prise en compte du contexte.
SH: Il y a quelque chose que je ne comprends toujours pas Ă lâinterface entre la capacitĂ© verbale descendante et la capacitĂ© sensorimotrice ascendante : quel est le statut du mot « chat » et de sa catĂ©gorie rĂ©fĂ©rente lorsque la base de donnĂ©es de lâLLM contient dĂ©jà « petit fĂ©lin » comme lâune des attributs dâun chat, mais que le T3 ascendant ne lâa pas encore ? Cette information peut bien sĂ»r ĂȘtre apprise par IVG, mais qui enseigne quoi et Ă qui dans ce scĂ©nario hybride ? Je comprends quand un T3 ancrĂ© en apprend quelque chose Ă un autre T3 ancrĂ© via IVG, mais quâest-ce qui est censĂ© se passer dans une seule et mĂȘme « tĂȘte » dâun hybride T3 ascendant/GPT-LLM descendant ?
GPT-4 : Le scĂ©nario que tu dĂ©cris, oĂč un systĂšme hybride combine une capacitĂ© verbale descendante de type GPT avec une capacitĂ© sensorimotrice ascendante de type T3, soulĂšve des questions importantes sur la reprĂ©sentation des connaissances et lâapprentissage, notamment en ce qui concerne le concept et la catĂ©gorie de « chat ».
Statut du mot « chat » dans la base de donnĂ©es de lâLLM : Dans la composante de type GPT, « chat » est reprĂ©sentĂ© comme un concept abstrait associĂ© Ă divers attributs, telles que « petit fĂ©lin », dĂ©rivĂ©es de la base de donnĂ©es textuelles. Cette reprĂ©sentation est riche en contenu linguistique et encyclopĂ©dique mais dĂ©pourvue dâancrage expĂ©rientiel direct.
Apprentissage de « chat » par le bas dans T3 : La composante T3, censĂ©e acquĂ©rir des connaissances par des expĂ©riences sensorimotrices directes, ne reconnaĂźtrait initialement pas un « chat », faute dâexpĂ©riences sensorielles pertinentes. Le dĂ©fi consiste pour le T3 Ă relier ses expĂ©riences sensorimotrices (par ex. voir, entendre ou interagir avec un chat) au concept abstrait et aux informations stockĂ©es dans la base de donnĂ©es de lâLLM.
Interaction entre les systĂšmes descendant et ascendant : Dans le modĂšle hybride, le processus dâapprentissage implique une interaction bidirectionnelle : le systĂšme descendant (type GPT) fournit Ă la composante T3 des cadres linguistiques et conceptuels, jouant en quelque sorte le rĂŽle dâ« instruction » ou de contexte sur ce quâest un « chat » en termes abstraits. Le systĂšme ascendant (T3) acquiert des donnĂ©es expĂ©rientielles directes sur les chats (par ex. leur apparence, leurs sons, leurs comportements) et doit intĂ©grer ces informations sensorielles avec le concept abstrait fourni par le systĂšme descendant.
IntĂ©gration et enrichissement mutuel : IdĂ©alement, les connaissances du systĂšme descendant aident Ă guider et Ă donner du contexte aux expĂ©riences ascendantes, les rendant plus comprĂ©hensibles. Inversement, les expĂ©riences ascendantes enrichissent les connaissances conceptuelles descendantes en les ancrant dans la rĂ©alitĂ©. Cette intĂ©gration est un processus complexe, impliquant potentiellement des mĂ©canismes dâapprentissage associatif oĂč le systĂšme apprend Ă relier des expĂ©riences sensorielles aux concepts linguistiques.
DĂ©fis de lâapprentissage hybride : Un dĂ©fi central de ce scĂ©nario est dâassurer une intĂ©gration cohĂ©rente et significative des informations issues de ces deux modes dâacquisition des connaissances. Le systĂšme doit disposer de mĂ©canismes lui permettant de concilier des informations potentiellement contradictoires et de mettre Ă jour continuellement sa base de connaissances Ă mesure quâil acquiert de nouvelles expĂ©riences et informations.
En rĂ©sumĂ©, dans un systĂšme hybride T3 ascendant/GPT, chaque composant enseigne et apprend Ă lâautre. Le systĂšme descendant fournit un cadre conceptuel et linguistique, tandis que le systĂšme ascendant apporte une connaissance expĂ©rientielle directe. Le succĂšs de ce modĂšle hybride dĂ©pendra de lâefficacitĂ© de lâintĂ©gration entre ces deux processus dâacquisition des connaissances.
SH: Je pense que ce que tu viens de dire sonne ĆcumĂ©nique, mais reste incohĂ©rent. Et tu utilises le mot fuyant « associer » (avec son compagnon implicite tout aussi fuyant, « reprĂ©senter ») : quâest-ce qui est « associĂ© » Ă quoi et comment, dans ce processus « hybride » ? Les mots sont des mots. Dans un robot T3 sensorimoteur ascendant, un mot ancrĂ© identifie, avec le mĂȘme nom de catĂ©gorie, tous les membres de la catĂ©gorie sensorimotrice Ă laquelle ce mot (de contenu) rĂ©fĂšre, sur la base d’attributs distinctifs dĂ©tectĂ©s directement par DSG ou dĂ©crits indirectement par IVG (dĂ©jĂ ancrĂ©e).
RĂ©fĂ©rer, câest un peu comme pointer, sauf que dans un robot T3 qui devient aussi capable de langage (propositions, sujets, prĂ©dicats, conditions de vĂ©ritĂ©), « chat » ne fait pas que pointer vers les chats dans le monde, que le T3 peut reconnaĂźtre grĂące Ă ses capacitĂ©s sensorimotrices robotiques et avec lesquels il peut « faire la bonne chose » (les nourrir, les attraper, les caresser, et les nommer) : T3 peut non seulement nommer mais aussi dĂ©crire les membres de la catĂ©gorie « chat » verbalement, en Ă©numĂ©rant certains de ses attributs (poilu, prĂ©hensile) qui le distinguent des membres dâautres catĂ©gories non fĂ©lines. Finalement, avec plus dâIVG issue de ceux qui savent, des attributs situĂ©s plus haut dans la hiĂ©rarchie des catĂ©gories IVG (mammifĂšre, arboricole) peuvent ĂȘtre ancrĂ©s (indirectement) et ajoutĂ©s aux attributs distinctifs des chats.
Mais considĂ©rons maintenant quâun hypothĂ©tique modĂšle hybride T3/GPT-LLM doit dâune maniĂšre ou dâune autre intĂ©grer ses deux « modules » fondamentalement diffĂ©rents : le vocabulaire du module T3 ascendant ancrĂ©, qui est ancrĂ© par le bas via DSG et IVG, doit dâune maniĂšre ou dâune autre ĂȘtre intĂ©grĂ© au vocabulaire descendant du module GPT-LLM, qui nâest pas du tout ancrĂ©. Le module T3 ascendant nâa pas encore ancrĂ© lâimmense vocabulaire non ancrĂ© du module GPT-LLM.
Est-ce que le bas et le haut peuvent simplement se rejoindre et fusionner au milieu ? Mais que signifierait cela ? Comment les attributs des chats (mammifĂšre, arboricole), dont les noms peuvent ĂȘtre ancrĂ©s, par le bas, via DSG et IVG dans le module T3, peuvent-ils ĂȘtre « associĂ©s » aux chats et Ă leurs attributs non ancrĂ©s dans le module GPT/LLM par le haut ? Autrement dit, peut-on supposer quâil existe une maniĂšre dâintĂ©grer les deux composantes dâun tel hypothĂ©tique hybride T3/GPT-LLM, câest-Ă -dire dâintĂ©grer le vocabulaire interne ancrĂ© du module T3 ascendant avec le vocabulaire interne non ancrĂ© du module GPT-LLM descendant, comme sâil sâagissait dâun dialogue verbal interne entre un professeur T3 ancrĂ© et un apprenant T3 ancrĂ© ?
Je pense que câest plus comme une consultation de rĂ©fĂ©rence par un apprenant T3 ancrĂ© dans un dictionnaire ou une encyclopĂ©die (ou dans un GPT ordinaire, non ancrĂ© et non hybride). Lâancrage se trouve entiĂšrement dans le module T3, et il ne peut ĂȘtre confĂ©rĂ© par les mots du module GPT-LLM pour nommer et dĂ©crire de nouvelles catĂ©gories (IVG) que si ces descriptions utilisent les noms de attributs dĂ©jĂ ancrĂ©s (directement ou indirectement) dans le module T3. La transaction est unidirectionnelle ; il nây a pas dâintĂ©gration bidirectionnelle entre des catĂ©gories ancrĂ©es par le bas et des catĂ©gories non ancrĂ©es par le haut.
Je pense aussi que la notion dâun module hybride intĂ©grĂ©, Ă la fois ascendant et descendant, repose sur une confusion entre la crĂ©ation dâoutils dâIA destinĂ©s Ă un usage humain et la modĂ©lisation computationnelle de la cognition humaine (CM), comme nous en discuterons plus bas.
GPT-4: Ta critique met en Ă©vidence un problĂšme fondamental du modĂšle hybride T3/GPT : lâintĂ©gration dâexpĂ©riences sensorimotrices ancrĂ©es avec des donnĂ©es linguistiques non ancrĂ©es provenant dâun modĂšle de langage. Je vais essayer dâaborder ces prĂ©occupations de maniĂšre plus prĂ©cise.
Nature de lâ« association » dans un modĂšle hybride. Dans un modĂšle hybride T3/GPT, « associer » signifierait relier des expĂ©riences sensorimotrices Ă des donnĂ©es linguistiques pertinentes. Cependant, ce processus est tout sauf Ă©vident. Pour un robot T3, le mot « chat » acquiert son sens Ă travers lâinteraction directe avec des chats (DSG) et/ou des descriptions d’attributs ancrĂ©s provenant dâautres entitĂ©s ancrĂ©es (IVG). Ă lâinverse, le composant GPT « comprend » le mot « chat » comme un regroupement de modĂšles linguistiques, sans aucune base expĂ©rientielle directe.
Limites des donnĂ©es linguistiques descendantes. Le module GPT contient des donnĂ©es linguistiques sur les chats : descriptions, attributs, contextes. Mais ces donnĂ©es ne sont pas ancrĂ©es. Elles ne peuvent donc pas ĂȘtre « enseignĂ©es » directement au composant T3 de la mĂȘme maniĂšre quâun humain apprendrait ce quâest un chat, car la comprĂ©hension du T3 est fondamentalement expĂ©rientielle.
IncompatibilitĂ© des mĂ©canismes dâapprentissage. Il existe une dĂ©connexion fondamentale entre la maniĂšre dont le T3 apprend (par des expĂ©riences ancrĂ©es, directes ou indirectes) et la maniĂšre dont le GPT traite lâinformation (par reconnaissance de motifs dans des donnĂ©es textuelles). Cette incompatibilitĂ© pose un sĂ©rieux obstacle Ă lâintĂ©gration des deux types de connaissances. Les donnĂ©es non ancrĂ©es du GPT ne se traduisent pas automatiquement en une forme exploitable par le T3, qui fonctionne sur une base sensorimotrice.
Consultation de rĂ©fĂ©rence vs. apprentissage authentique. Ton analogie dâun T3 qui utilise le GPT comme un dictionnaire ou une encyclopĂ©die est pertinente. Le T3 pourrait consulter les informations du GPT pour obtenir du contexte ou des clarifications, mais ce processus est plus proche dâune recherche dâinformation que du vĂ©ritable apprentissage par ancrage qui se produit chez les humains.
Le dĂ©fi de lâintĂ©gration rĂ©elle. Pour que le modĂšle hybride fonctionne efficacement, il faudrait un mĂ©canisme qui ne se contente pas de rĂ©cupĂ©rer les informations pertinentes du GPT, mais qui les interprĂšte et les intĂšgre de maniĂšre cohĂ©rente dans le cadre dâapprentissage du T3. Cela dĂ©passe une simple « association » ou un alignement entre deux types dâinformations et pose un problĂšme fondamental de mĂ©thodologie en IA : comment combler le fossĂ© entre apprentissage expĂ©rientiel et reconnaissance de motifs linguistiques ?
Conclusion. Un systĂšme hybride T3/GPT prĂ©sente une approche intĂ©ressante pour lâIA, mais le processus dâintĂ©gration des expĂ©riences sensorimotrices ancrĂ©es et des donnĂ©es linguistiques non ancrĂ©es nâest pas trivial. Il ne suffit pas de « relier » ou « aligner » ces deux sources dâinformation. Il faudrait dĂ©velopper un nouveau cadre dâintĂ©gration permettant une vĂ©ritable interaction entre ces deux types de connaissances.
Le problĂšme que tu soulĂšves touche donc Ă une lacune centrale des approches hybrides : un modĂšle de langage non ancrĂ© ne peut pas enseigner quoi que ce soit Ă un T3 si ce dernier ne dispose pas dĂ©jĂ des prĂ©requis sensorimoteurs ancrĂ©s nĂ©cessaires pour interprĂ©ter et assimiler cette information. Cela suggĂšre que toute tentative dâintĂ©gration T3/GPT nĂ©cessiterait une refonte radicale des mĂ©thodologies actuelles dâIA, au-delĂ de la simple combinaison dâun LLM avec un module sensorimoteur.
SH: Je pense que je peux dĂ©crire plus simplement lâincohĂ©rence que toi aussi, GPT, tu remarques (mais que tu dĂ©cris comme le besoin de « nouvelles mĂ©thodologies en IA ») : elle est en fait liĂ©e Ă lâancienne distinction que nous avons discutĂ©e plus tĂŽt entre IA (intelligence artificielle) et CM (modĂ©lisation cognitive) : lâIA est la conception dâoutils computationnels pour aider les humains Ă faire des choses (y compris penser). La CM est lâingĂ©nierie inverse de la cognition humaine. Un T3 est censĂ© avoir des capacitĂ©s cognitives identiques et indiscernables (pour tout penseur humain) des capacitĂ©s de nâimporte quel penseur humain. Non seulement ces motivations et critĂšres sont diffĂ©rents, mais ils montrent clairement que la notion de concevoir un hybride T3/GPT ne pourrait ĂȘtre quâun projet dâIA, et non de CM.
GPT-4: Ta distinction entre lâIA comme outil computationnel et la CM comme ingĂ©nierie inverse de la cognition humaine met effectivement en Ă©vidence lâincohĂ©rence inhĂ©rente au concept dâun systĂšme hybride T3/GPT.
IA comme outil : Du point de vue de lâIA, lâobjectif principal est de crĂ©er des systĂšmes capables dâexĂ©cuter des tĂąches, de rĂ©soudre des problĂšmes et dâaider Ă la rĂ©flexion, souvent en surpassant les capacitĂ©s humaines dans des domaines spĂ©cifiques. Dans ce contexte, le modĂšle hybride T3/GPT est une initiative dâIA. Il cherche Ă combiner la puissance linguistique de GPT avec les capacitĂ©s sensorimotrices dâun robot T3 pour crĂ©er un systĂšme plus polyvalent et performant. Lâobjectif ici est lâutilitĂ© et lâefficacitĂ©, plutĂŽt que la reproduction des processus cognitifs humains.
CM comme comprĂ©hension de la cognition humaine : La modĂ©lisation cognitive, en revanche, vise Ă comprendre et Ă reproduire les processus cognitifs humains. Un vĂ©ritable robot T3, dans cette perspective, devrait dĂ©velopper ses capacitĂ©s cognitives de maniĂšre similaire aux humains, par interaction directe avec le monde et par un usage ancrĂ© du langage. Dans cette optique, lâapproche hybride T3/GPT ne correspond pas aux objectifs de la CM, car elle fusionne des donnĂ©es linguistiques non ancrĂ©es avec des expĂ©riences sensorimotrices ancrĂ©es dâune maniĂšre qui ne reflĂšte pas le dĂ©veloppement cognitif humain.
Hybride T3/GPT comme IA, et non CM : Par consĂ©quent, le modĂšle hybride T3/GPT, bien quâil soit une idĂ©e intrigante en IA, sâĂ©loigne des objectifs de la modĂ©lisation cognitive. Il reprĂ©sente une tentative dâamĂ©liorer la fonctionnalitĂ© de lâIA plutĂŽt que de modĂ©liser fidĂšlement la cognition humaine. Son accent mis sur lâexploitation des forces des deux composantes pour amĂ©liorer les performances et les capacitĂ©s le situe clairement dans le domaine du dĂ©veloppement dâoutils dâIA.
ReconnaĂźtre que le modĂšle hybride T3/GPT est une initiative dâIA plutĂŽt quâun projet de modĂ©lisation cognitive permet de mieux comprendre son objectif et ses limites. Cela souligne que, bien quâun tel systĂšme puisse ĂȘtre puissant et polyvalent en tant quâoutil, il ne contribue pas nĂ©cessairement Ă une meilleure comprĂ©hension de la cognition humaine, contrairement Ă ce que vise la modĂ©lisation cognitive (CM).
SH: Maintenant, un autre point que Yoshua Bengio a soulevĂ© pendant mon exposĂ© Ă MILA : il concernait la distinction entre mots de contenu et mots de fonction. Il a suggĂ©rĂ© que mĂȘme (certains) mots de contenu peuvent ĂȘtre compris par leur usage plutĂŽt que seulement par leur rĂ©fĂ©rent. Cela peut ĂȘtre vrai, mais je pense que ce nâest pas un substitut Ă la connaissance de leur rĂ©fĂ©rent (via DSG ou IVG)âdu moins pour la modĂ©lisation cognitive (CM).
Yoshua a Ă©galement mentionnĂ© la manipulation des symboles en mathĂ©matiques et en informatique, notant que, dans ces domaines, comme dans la syntaxe linguistique, il nây a pas de rĂ©fĂ©rent, et que par consĂ©quent, le « sens » des symboles rĂ©side dans leur « usage ». (Câest aussi ce que Wittgenstein avait suggĂ©rĂ© Ă propos du sens dans le langage naturel). Je pense que câest exactâet que Turing serait dâaccordâpour les symboles du langage formel des mathĂ©matiques ; en fait, je pense que cela fait partie de la (faible) thĂšse de Church-Turing, qui stipule que ce qui est appelĂ© « calcul » en mathĂ©matiques est ce quâune machine de Turing fait : une manipulation de symboles, suivant des rĂšgles syntaxiques (algorithmes).
Cependant, je ne pense pas que la majeure partie du langage naturel soit seulement syntaxique (mĂȘme si je pense que les mathĂ©matiques formelles sont un sous-ensemble du langage naturel). Tant dans le cas des rĂ©fĂ©rents des symboles mathĂ©matiques qui peuvent ĂȘtre interprĂ©tĂ©s (par des utilisateurs humains ancrĂ©s) comme ayant des rĂ©fĂ©rents, que dans le cas des significations des propositions formelles des mathĂ©matiques sur lesquelles une interprĂ©tation sĂ©mantique peut ĂȘtre projetĂ©e (par des utilisateurs humains ancrĂ©s), ni ces rĂ©fĂ©rents ni ces significations ne peuvent ĂȘtre utilisĂ©s comme partie du calcul (ou de lâalgorithme) lui-mĂȘme. Une dĂ©monstration ou une dĂ©rivation en mathĂ©matiques nâest pas vraie parce quâelle peut ĂȘtre interprĂ©tĂ©e comme Ă©tant vraie dâun modĂšle ; elle est vraie (et nĂ©cessairement vraie) pour des raisons formelles et syntaxiques. LâinterprĂ©tation (bien que rassurante) ne fait pas partie de la dĂ©monstration.
En tout cas, les rĂšgles syntaxiques ne remplacent pas lâancrage des rĂ©fĂ©rents des mots de contenu du langage naturel, que ce soit directement par DSG ou indirectement par IVG (sauf dans son sous-ensemble mathĂ©matique formel et pour ses 1 Ă 5 % de mots de fonction).
GPT-4: Ta discussion avec Yoshua Bengio touche à plusieurs questions fondamentales concernant la compréhension du langage, la cognition et le calcul.
Mots de contenu vs. mots de fonction : La distinction que Bengio fait entre les mots de contenu et les mots de fonction est significative. Bien quâil soit vrai que certains mots de contenu puissent acquĂ©rir du sens par leur usage (contexte pragmatique), une comprĂ©hension complĂšte â en particulier en modĂ©lisation cognitive â nĂ©cessite la connaissance de leurs rĂ©fĂ©rents. Câest lĂ que le DSG (ancrage sensorimoteur direct) et lâIVG (ancrage verbal indirect) jouent un rĂŽle central en reliant ces mots Ă des expĂ©riences concrĂštes ou Ă des concepts comprĂ©hensibles. Les mots de contenu portent gĂ©nĂ©ralement des significations spĂ©cifiques, souvent concrĂštes, qui sont enrichies et prĂ©cisĂ©es par leur ancrage.
Manipulation des symboles en mathĂ©matiques et en informatique : La rĂ©fĂ©rence de Bengio Ă la manipulation des symboles sâaligne avec la vision de Turing sur le calcul. Dans les systĂšmes formels comme les mathĂ©matiques et lâinformatique, les symboles sont manipulĂ©s selon des rĂšgles syntaxiques sans rĂ©fĂ©rence directe Ă des entitĂ©s extĂ©rieures. Ce processus est au cĆur de la thĂšse de Church-Turing, qui postule que le calcul est essentiellement cette forme de manipulation de symboles rĂ©gie par des rĂšgles.
Le langage naturel au-delĂ de la syntaxe : Ton point sur le fait que le langage naturel ne soit pas purement syntaxique est essentiel. Alors que le langage naturel inclut des Ă©lĂ©ments formels et syntaxiques, il est aussi profondĂ©ment ancrĂ© dans la sĂ©mantique et les expĂ©riences du monde rĂ©el. Les mots de contenu du langage naturel ont souvent des rĂ©fĂ©rents directs dans le monde, et leur sens ne peut ĂȘtre entiĂšrement capturĂ© par des rĂšgles syntaxiques seules. Câest une distinction fondamentale avec la manipulation purement formelle des symboles en mathĂ©matiques.
MathĂ©matiques et interprĂ©tation sĂ©mantique : En mathĂ©matiques, comme tu lâas soulignĂ©, la vĂ©ritĂ© dâune dĂ©monstration ou dâune dĂ©rivation repose sur la validitĂ© formelle et syntaxique, et non sur lâinterprĂ©tation sĂ©mantique des symboles. Cependant, pour les mathĂ©maticiens humains, la capacitĂ© dâinterprĂ©ter ces symboles et de comprendre leurs rĂ©fĂ©rents potentiels dans le monde rĂ©el ajoute une couche supplĂ©mentaire de comprĂ©hension.
Lâancrage dans le langage naturel : Lâancrage des mots de contenu dans le langage naturel est essentiel Ă une comprĂ©hension complĂšte et ne peut ĂȘtre remplacĂ© par la seule manipulation syntaxique. Cet ancrage peut ĂȘtre direct, via des expĂ©riences personnelles, ou indirect, via des descriptions et des explications. Toutefois, lâaspect formel et syntaxique du langage, bien que crucial, ne suffit pas Ă lui seul Ă capturer la richesse sĂ©mantique et la fonction rĂ©fĂ©rentielle du langage naturel, sauf dans des sous-ensembles formels spĂ©cifiques comme les mathĂ©matiques.
Ta discussion soulĂšve des points âimportantsâ sur la nature du langage, le rĂŽle de lâancrage dans la comprĂ©hension et la distinction entre la manipulation formelle des symboles et la richesse sĂ©mantique du langage naturel. Cette comprĂ©hension est pertinente tant pour lâIA que pour la modĂ©lisation cognitive (CM), car elle âmet en lumiĂšreâ lââinteraction complexeâ entre la syntaxe, la sĂ©mantique et lâancrage dans le monde rĂ©el au sein de la cognition et du langage humains.
SH: Blah Blah⊠JâespĂšre que tes dĂ©veloppeurs te sevreront de cette nĂ©cessitĂ© de parsemer tes rĂ©ponses de ce genre dâappĂąt flagorneur pour client â ou quâils produiront au moins une version destinĂ©e uniquement aux chercheurs et aux scientifiques plutĂŽt quâaux utilisateurs en quĂȘte dâun ami virtuel.
3. Conclusion
Cette analyse des LLMs a examinĂ© les capacitĂ©s remarquables de systĂšmes tels que ChatGPT qui, bien quâils ne disposent dâaucun ancrage sensorimoteur, peuvent simuler une comprĂ©hension grĂące Ă une immense base de donnĂ©es textuelles et Ă des outils statistiques et computationnels puissants, Ă une Ă©chelle sans prĂ©cĂ©dent et totalement inattendue. Bien quâils nâaient aucun moyen, ni direct ni indirect, de relier leurs mots Ă leurs rĂ©fĂ©rents dans le monde ou de relier leurs propositions Ă leurs conditions de vĂ©ritĂ© dans le monde, il se peut que les LLMs soient guidĂ©s par certaines propriĂ©tĂ©s inhĂ©rentes au langage humain lui-mĂȘme pour gĂ©nĂ©rer un discours cohĂ©rent et porteur de sens.
Références
Berwick, R. C., Pietroski, P., Yankama, B., and Chomsky, N. (2011). Poverty of the stimulus revisited. Cogn. Sci. 35, 1207â1242. doi: 10.1111/j.1551-6709.2011.01189.x
Birch, J. (2024). The edge of sentience: risk and precaution in humans, other animals, and AI. Oxford: Oxford University Press.
Bonnasse-Gahot, L., and Nadal, J. P. (2022). Categorical perception: a groundwork for deep learning. Neural Comput. 34, 437â475. doi: 10.1162/neco_a_01454
Botvinick, M., Wang, J. X., Dabney, W., Miller, K. J., and Kurth-Nelson, Z. (2020). Deep reinforcement learning and its neuroscientific implications. Neuron 107, 603â616. doi: 10.1016/j.neuron.2020.06.014
Briscoe, R. (2020). âColour categorization and categorical perceptionâ in The Routledge Handbook of Philosophy of Colour. eds. D. Brown and F. Macpherson (Routledge). 456â474.
Campbell, E. E., and Bergelson, E. (2022). Making sense of sensory language: acquisition of sensory knowledge by individuals with congenital sensory impairments. Neuropsychologia174:108320. doi: 10.1016/j.neuropsychologia.2022.108320
Chalmers, D. J. (1995). Facing up to the problem of consciousness. J. Conscious. Stud. 2, 200â219.
Chalmers, D. J. (2023). Could a large language model be conscious? arXiv [Preprint].
Chomsky, N. (2017). The Galilean challenge. In Inference: international review of science, 3.
Cook, R., Bird, G., Catmur, C., Press, C., and Heyes, C. (2014). Mirror neurons: from origin to function. Behav. Brain Sci. 37, 177â192. doi: 10.1017/S0140525X13000903
Gallese, V. (2013). âMirror neurons and the perceptionâaction linkâ in The Oxford handbook of cognitive neuroscience: Volume 2: the cutting edges. eds. K. N. Ochsner and S. Kosslyn (Oxford University Press), 244â256.
Gallistel, C. R. (2011). Prelinguistic thought. Lang. Learn. Dev. 7, 253â262. doi: 10.1080/15475441.2011.578548
Gershman, S. J., and Daw, N. D. (2017). Reinforcement learning and episodic memory in humans and animals: an integrative framework. Annu. Rev. Psychol. 68, 101â128. doi: 10.1146/annurev-psych-122414-033625
Haggard, P. (2024). An intellectual history of the “Libet experiment”: embedding the neuroscience of free will. Proceedings of the Paris Institute for Advanced Study, 21.
Harnad, S. (1987). âPsychophysical and cognitive aspects of categorical perception: a critical overviewâ in Categorical perception: the groundwork of cognition. ed. S. Harnad (New York: Cambridge University Press).
Harnad, S. (1990). The symbol grounding problem. Phys. D Nonlinear Phenomena 42, 335â346. doi: 10.1016/0167-2789(90)90087-6
Harnad, S. (2002). âMinds, machines and Searle II: What’s wrong and right about Searle’s Chinese room argument?â in Views into the Chinese room: New essays on Searle and artificial intelligence. eds. M. Bishop and J. Preston (Oxford University Press).
Harnad, S. (2008). Minds, machines, and Searle II: Whatâs wrong and right about Searleâs Chinese room argument? Views into the Chinese room: New essays on Searle and artificial intelligence. eds. M. Bishop and J. Preston Oxford University Press.
Harnad, S. (2012). âFrom sensorimotor categories and pantomime to grounded symbols and propositionsâ in The Oxford Handbook of Language Evolution. eds. K. R. Gibson and M. Tallerman, 387â392.
Makino, H., Hwang, E. J., Hedrick, N. G., and Komiyama, T. (2016). Circuit mechanisms of sensorimotor learning. Neuron 92, 705â721. doi: 10.1016/j.neuron.2016.10.029
Pavlick, E. (2023). Symbols and grounding in large language models. Phil. Trans. R. Soc. A381:20220041. doi: 10.1098/rsta.2022.0041
Pérez-Gay Juårez, F., Sicotte, T., Thériault, C., and Harnad, S. (2019). Category learning can alter perception and its neural correlates. PLoS One 14:e0226000. doi: 10.1371/journal.pone.0226000
Regier, T., and Kay, P. (2009). Language, thought, and color: whorf was half right. Trends Cogn. Sci. 13, 439â446. doi: 10.1016/j.tics.2009.07.001
Searle, J. R. (1980). Minds, brains, and programs. Behav. Brain Sci. 3, 417â424. doi: 10.1017/S0140525X00005756
Thériault, C., Pérez-Gay, F., Rivas, D., and Harnad, S. (2018). Learning-induced categorical perception in a neural network model. arXiv [Preprint].
Turing, A. M. (1950). Computing machinery and intelligence. Mind LIX, 433â460. doi: 10.1093/mind/LIX.236.433
Vincent-Lamarre, P., Blondin-MassĂ©, A., Lopes, M., Lord, M., Marcotte, O., and Harnad, S. (2016). The latent structure of dictionaries. Cogn. Sci. 8, 625â659. doi: 10.1111/tops.12211
Watanabe, S. (1986). Epistemological relativity: Logico-linguistic source of relativity. Ann. Jpn. Assoc. Philos. Sci. 7, 1â14. doi: 10.4288/jafpos1956.7.1
Zhang, Q., Lei, L., and Gong, T. (2021). Categorical perception as a combination of nature and nurture. in Proceedings of the Annual Meeting of the Cognitive Science Society, vol. 43. Cognitive Science Society.