Cours 2012: Le cerveau statisticien: La révolution Bayésienne en sciences cognitives Stanislas Dehaene Chaire de Psychologie Cognitive Expérimentale Cours n 7 Le cerveau vu comme un système prédictif
La notion de «codage prédictif» (predictive coding) Mumford, 1992; Rao & Ballard, 1999; Friston, 2005 L hypothèse du «cerveau Bayésien» suggère que notre cerveau infère, à partir des entrées sensorielles, un partir des entrées sensorielles, un modèle interne du monde extérieur. A son tour, ce modèle interne peut être utilisé pour créer des anticipations sur utilisé pour créer des anticipations sur les entrées sensorielles et un effet de surprise liée à l erreur de prédiction quand celles ci sont violées. quand celles ci sont violées
La notion de «codage prédictif» (predictive coding) L idée que le cerveau n est pas un dispositif passif d entrée sortie, mais un système actif capable de générer des prédictions et d en vérifier la validité, a une longue histoire dans les domaines de l éthologie, de la psychologie, et des neurosciences. voir par exemple ee pees les concepts cepts de copie efférente (von Helmholtz, von Holst), de critique interne (Sutton & Barto) ou de prédiction de la récompense (Schultz) Les avantages en sont nombreux: gagner du temps: anticiper, c est avoir l information à l avance, parfois avant même qu elleatteigne nosrécepteurssensoriels sensoriels filtrer les entrées: utiliser le passé pour prédire le présent, c est bénéficier d un filtre optimal qui peut aider à interpréter une entrée bruitée, voire remplacer totalement un stimulus masqué, manqué ou absent. simplifier l architecture et le traitement des données: il n est pas la peine de représenter ou de transmettre ce que l on peut prédire. tirer des inférences optimales: maximiser i la vraisemblance p(h e) d un modèle des entrées sensorielles implique de minimiser l erreur de prédiction sur ces entrées e. (Mumford, 1992; Rao & Ballard, 1999; Friston, 2005).
Le cerveau, l algorithme E M et le principe de l énergie libre Friston, K. (2010). The free-energy principle: a unified brain theory? Nat Rev Neurosci, 11(2), 127-138. 138 Pour Karl Friston, l hypothèse du codage prédictif s inscrit dans un cadre théorique beaucoup plus large, le principe de minimisation de l énergie libre: «tout système auto organisé en équilibre avec son environnement doit minimiser son énergie libre» Le principe de l énergie libre est une «formulation mathématique de la manière dont les agents biologiques résistent à la tendance naturelle au désordre» : ils «maintiennent leur état dans un environnement changeant». Les états de l organisme doivent donc être de basse entropie : «les agents biologiques doivent minimiser i i la moyenne à long terme de la surprise». L énergie libre est une équation mathématique qui donne une borne supérieure sur la surprise: «si les agents minimisent l énergie libre, ils minimisent implicitement la surprise». Dansledomaine de laperception, leprincipe conduit à optimiser les inférences perceptives. «L agent infère ou représente, de façon implicite, les causes de ses entrées sensorielles selon les principes de l inférence Bayésienne optimale» L énergie Lénergie librepeutêtre maximiséeparl'algorithme algorithme EM (Expectation Maximisation), proposé par Dempster et al. (1977): une procédure itérative qui, en alternant deux étapes (E et M) de façon répétée, permet de trouver le maximum de vraisemblance ou le maximum a posteriori des paramètres d un dun modèle probabiliste. Friston propose que le cerveau utilise un algorithme EM, ce qui, si le modèle générateur est Gaussien, revient à propager des erreurs de prédiction.
Vers une théorie générale de l organisation du cortex? Friston, K. (2005). A theory of cortical responses. Philos Trans R Soc Lond B Biol Sci, 360(1456), 815-836. Nos sensations sont générées par un réseau complexe et hiérarchique de causes. Notre cortex cherche à inverser ce modèle (au sens de Bayes): inférer les causes cachées de nos sensations à tous les niveaux. La formalisation de ce problème invite à (1) assigner à chaque niveau d inférence causale une aire spécifique (2) utiliser un algorithme bidirectionnel de passation de messages. Les L neurones des couches inférieures implémentent la représentation des causes. Les connections descendantes implémentent le modèle prédictif (forward model): la prédiction du niveau n, sur la base des connaissances au niveau n+1. Les connections ascendantes, issues des couches supérieures du cortex, transmettent l erreur de prédiction: la différence entre l entrée reçue et sa prédiction.
Quelques phénomènes empiriques qui peuvent être capturés par le modèle du «codage prédictif» La «Mismatch negativity»: après plusieurs répétitions, la présentation d un son déviant, inattendu, évoque une réponse cérébrale à la nouveauté. Garrido, M. I., Kilner, J. M., Kiebel, S. J., & Friston, K. J. (2009). Dynamic causal modeling of the response to frequency deviants. J Neurophysiol, 101(5), 2620 2631.
Quelques phénomènes empiriques qui peuvent être capturés par le modèle du «codage prédictif» La «Mismatch negativity»: après plusieurs répétitions, la présentation d un son déviant, inattendu, évoque une réponse cérébrale à la nouveauté. De nombreuses autres réponses cérébrales ééb sont évoquées é par des stimulis inattendus ou qui violent une règle (MMN auditives à différents niveaux, visuelles, somatosensorielles, ELAN, N400, P3a et P3b). «Repetition suppression»: l activation cérébrale ééb diminue i lorsqu une image est répétée (Miller & Desimone, 1991; Grill Spector et al, 2001; Naccache & Dehaene, 2001) Débat: S agit il d une simple habituation, ou d une authentique erreur de prédiction? De nombreuses données récentes militent en faveur de l hypothèse du codage prédictif: 1. Une réponse auditive est évoquée par l absence d un son attendu. 2. La MMNpeut êtreévoquée parlarépétition répétition d un dun stimulusdansun un paradigme ABABA où c est l alternance qui est attendue. Horvath, J., & Winkler, I. (2004). How the human auditory system treats repetition amongst change. Neurosci Lett, 368(2), 157 161. 3. De même, Chris Summerfield montre que la repetition suppression est modulée par les attentes du sujet. Elle est fortement réduite lorsque les stimuli alternent et que c est la répétition qui constitue un événement surprenant. Summerfield, C., Trittschuh, E. H., Monti, J. M., Mesulam, M. M., & Egner, T. (2008). Neural repetition suppression reflects fulfilled perceptual expectations. Nat Neurosci, 11(9), 1004 1006.
Sensibilité à l anticipation de la répétition dans le cortex auditif Todorovic, A., van Ede, F., Maris, E., & de Lange, F. P. (2011). Prior expectation mediates neural adaptation to repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123. Présentation d un ou deux sons successifs (1000 Hz, 5 ms), séparés de 500 ms Deux types de blocs distincts: 75% de paires, 25% de sons uniques; ou l inverse EnregistrementMEGchez l homme attentif (détection de rares déviants à 1200 Hz)
Sensibilité à l anticipation de la répétition dans le cortex auditif Todorovic, A., van Ede, F., Maris, E., & de Lange, F. P. (2011). Prior expectation mediates neural adaptation to repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123. Dans l espace temps fréquence, les réponses à un second stimulus sont fortement réduites lorsque le stimulus est anticipé. i
Sensibilité à l anticipation de la répétition dans le cortex auditif Todorovic, A., van Ede, F., Maris, E., & de Lange, F. P. (2011). Prior expectation mediates neural adaptation to repeated sounds in the auditory cortex: an MEG study. J Neurosci, 31(25), 9118-9123. Inversement, l omission d un stimulus attendu se traduit par une vigoureuse décharge prolongée, particulièrement dans la bande gamma (>40 Hz). Serait ce la trace de la prédiction elle même? Ou de la surprise évoquée par l omission?
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque Meyer, T., & Olson, C. R. (2011). Statistical learning of visual transitions in monkey inferotemporal cortex. Proc Natl Acad Sci U S A, 108(48), 19401-19406. Les décharges des neurones du cortex inféro temporal sont elles affectées par la prédictabilité des images? Fixation passive chez le singe éveillé Présentation de paires d images avec une forte probabilité de transition Présence de rares paires dans laquelle cette transition probable est violée.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque Décharge moyenne de la population de neurones: La réponse à l image prévisible est atténuée pratiquement dès le début En proportion p directe de la réponse à l image non prédite. La décharge neuronale contient plus d information décodable sur l image lorsqu elle est imprévisible que lorsqu elle est prédite.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque La réponse à l image 2 est toujours plus lente que pour l image 1 (probablement parce qu une une image remplace lautre) l autre) La réponse à l image prédite est légèrement accélérée L effet de surprise survient exactement en même temps que la réponse à l image non prédite la génération de l «effet de surprise» semble instantanée! Cette observation n est pas compatible avec un traitement sériel (identification de l image, puis de sa nouveauté), mais semble nécessiter un codage prédictif.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque L habituation (ou adaptation) neuronale peut elle expliquer l effet? Non, elle semble ne pas jouer un rôle important dans l effet observé: La réponse à la deuxième image ne dépend absolument pas de l amplitude la réponse à la première image.
Sensibilité à la probabilité de transition dans le cortex inféro temporal du singe macaque A B (ordre appris) B A (ordre inverse) L effet est directionnel: l image A n prédit l image B n, mais pas l inverse. Conclusion: la réponse du cortex inféro temporal traduit une anticipation du stimulus à venir les décharges neuronales reflètent l erreur lerreur de prédiction.
Une implémentation neuronale du codage prédictif Memory trace (synfire chain) hi) Neuron index Wacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive coding accounting for the mismatch negativity. J Neurosci, in press. Predictive Population Layer 2/3 P(A) P(B) time Learning : modification of synaptic weights Prediction Errror layer4 (A) ( ) (B) ( ) Error signal NMDA dependent Spike Timing Dependent Plasticity Thalamic Input A B
Une implémentation neuronale du codage prédictif Wacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive coding accounting for the mismatch negativity. J Neurosci, in press.
Oddball Standard Anticipation de A : Predictive résultat de l apprentissage Population Layer 2/3 Résultats de la simulation Erreur de prédiction résiduelle Prediction Errror layer4 Thalamic Input
Oddball Deviant Anticipation de A : Predictive résultat de l apprentissage Population Layer 2/3 Résultats de la simulation Erreur de prédiction résiduelle Prediction Errror layer4 Thalamic Input
Oddball Difference L effet de Mismatch Negativity Predictive Population Layer 2/3 Prediction Errror layer4
Oddball Effet 1 : existence L effet de Mismatch Negativity Predictive Population Layer 2/3 Prediction Errror layer4 Effet 1 Existence of a difference between the responses to standard and deviant sounds
Origine corticale de la MMN, et rôle du récepteur NMDA Oddball Effet 1 : existence Effet 2 : localisation Predictive Population Layer 2/3 Experimental data (CSD) Javitt et al. (1996) Prediction Errror layer4 Effet 2 Maximal difference in supragranular layer (Javitt 1996)
Oddball Effet 1 : existence Effet 2 : localisation Effet 3 : frequency Effet de la fréquence des déviants Predictive Population Layer 2/3 Experimental Data (ERP) 10% 20% 30% Prediction Errror layer4 Sato et al. (2000) Effet 3 Increase in MMN amplitude if the deviant is less frequent(sato 2000)
La probabilité de transition entre les stimuli est directement internalisée dans les poids synaptiques
La réponse à une répétition inattendue: le paradigme ABAB ABABAAB.. Effet 1 : existence Effet 2 : localisation Effet 3 : frequency Effet 4: MMN to repetition Effet 5 MMN to repetition in an alternate sequence
AB AB A_ Effet 1 : existence Effet 2 : localisation Effet 3 : frequency Effet 4: MMN to repetition Effet 5: MMN to omission La réponse à une omission inattendue Effet 5 MMN to omission
Codage prédictif ou habituation? Un nouveau test en MEG Wacongne, C., Changeux, J. P., & Dehaene, S. (2012). A neuronal model of predictive coding accounting for the mismatch negativity. i J Neurosci, in press. Idée: exposer l organisme à des paires AB, puis tester la surprise évoquée par AA, BA, BB. Pour réfuter une éventuelle habituation de neurones sensibles à la paire AB, espacer ces paires de 10 à 20 secondes. Prédictions:
Une hiérarchie de prédictions dans le cortex Bekinschtein, T. A., Dehaene, S., Rohaut, B., Tadel, F., Cohen, L., & Naccache, L. (2009). Neural signature of the conscious processing of auditory regularities. Proc Natl Acad Sci U S A, 106(5), 1672-1677. règle xxxxx 20% Erreur 80% La présentation d une note rare, au sein d une séquence répétée, évoque une MMN. règle xxxxy 80% 20% Erreur «locale» Erreur «globale» Que se passerait il si la séquence toute entière devenait prévisible? La MMN persiste elle reflète un système de prédiction local et aveugle. Mi Mais une seconde réponse à la nouveauté, la P3b, disparaît c est tà présent tle stimulus monotone qui évoque la P3b. Il existe une hiérarchie de prédictions dans le cortex. La P3b pourrait refléter le niveau de la prédiction consciente.
Une hiérarchie de prédictions dans le cortex Bekinschtein, T. A., Dehaene, S., Rohaut, B., Tadel, F., Cohen, L., & Naccache, L. (2009). Neural signature of the conscious processing of auditory regularities. Proc Natl Acad Sci U S A, 106(5), 1672-1677. règle xxxxy 80% 20% Erreur «locale» Erreur «globale»
L omission démontre l existence d une hiérarchie de prédictions Wacongne, C., Labyt, E., van Wassenhove, V., Bekinschtein, T., Naccache, L., & Dehaene, S. (2011). Evidence for a hierarchy of predictions and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759. règle xxxxy 80% 20% Erreur «locale» Erreur «globale» Reconsidérons le cas de la règle xxxxy. Au niveau supérieur, ce n est pas une surprise qu il y ait une surprise! La surprise, c est qu il n y en ait pas. Le modèle hiérarchique implique que l erreur locale (de niveau 1) est elle même prédite et «effacée» par une prédiction de plus haut niveau (de niveau 2). Une idée simple: en omettant le dernier stimulus, nous pouvons enregistrer ce pur signal de prédiction. Stimulus Prédiction Différence
L omission démontre l existence d une hiérarchie de prédictions Wacongne, C., Labyt, E., van Wassenhove, V., Bekinschtein, T., Naccache, L., & Dehaene, S. (2011). Evidence for a hierarchy of predictions and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759. règle xxxxy 80% 20% Erreur «locale» Erreur «globale» Reconsidérons le cas de la règle xxxxy. Au niveau supérieur, ce n est pas une surprise qu il y ait une surprise! La surprise, c est qu il n y en ait pas. Le modèle hiérarchique implique que l erreur locale (de niveau 1) est elle même prédite et «effacée» par une prédiction de plus haut niveau (de niveau 2). Une idée simple: en omettant le dernier stimulus, nous pouvons enregistrer ce pur signal de prédiction. Prédiction: l effet d omission est deux fois plus important pour la règle xxxxy que pour la règle xxxxx, Stimulus Prédiction Différence
Une hiérarchie de prédictions dans le cortex auditif Wacongne, C., Labyt, E., van Wassenhove, V., Bekinschtein, T., Naccache, L., & Dehaene, S. (2011). Evidence for a hierarchyh of predictions i and prediction errors in human cortex. Proc Natl Acad Sci U S A, 108(51), 20754-20759.
L effet d omission en MEG Différence entre les omissions: La réponse à l omission du cinquième son est effectivement plus grande dans la règle xxxxy que dans la règle xxxxx.
Reconstruction des sources corticales des activations observées source temporale supérieure source précentrale Remarquer à nouveau l ordre des réponses: d abord dabord l effet leffet d omission ensuite l effet de nouveauté locale enfin l activation aux sons prédits
Le comportement humain suggère que les adultes et les enfants possèdent une vaste capacité d inférence statistique à de multiples niveaux (perception, action, lexique, causalité ) L architecture du cortex pourrait s expliquer par la réplication d un circuit neuronal Bayésien (avec des variantes locales). Conclusion du cours 2012 L hypothèse du cerveau Bayésien commence à rendre compte de quelques unes des questions les plus pressantes en sciences cognitives: Le problème de l induction des règles abstraites La détection des erreurs La réaction de surprise Les compétences des enfants et l apprentissage précoce