Publié le 20 déc 2010Lecture 6 min
Comment notre cerveau améliore-t-il nos décisions ?
M. Pessiglione
Une question centrale en neurosciences cognitives concerne les mécanismes permettant au cerveau d’optimiser les décisions prises en fonction des succès ou des échecs rencontrés. Cette problématique est étudiée dans les paradigmes de conditionnement instrumental où le sujet apprend à associer des récompenses obtenues ou manquées aux actions effectuées dans un contexte donné. Pour décrire cet apprentissage d’un point de vue computationnel, plusieurs modèles ont été proposés. Parmi eux, le modèle « acteur/critique » a fourni la clef d’interprétation de plusieurs résultats obtenus chez l’animal et chez l’homme (1,2).
Le modèle « acteur/ critique » décrypté Dans le modèle « acteur/critique », le contexte est encodé au niveau du cortex et transmis au striatum, qui contient deux systèmes d’apprentissage, le « critique » (striatum ventral) et « l’acteur » (putamen postérieur). Selon le contexte, le « critique » envoie aux neurones dopaminergiques une prédiction de la récompense à venir, tandis que l’« acteur » choisit via le pallidum une réponse comportementale. Les neurones dopaminergiques comparent la prédiction du « critique » à la récompense reçue et transmettent au striatum le résultat, à savoir la différence entre récompenses reçue et attendue. Ce signal d’erreur est utilisé par les deux systèmes d’apprentissage : par le « critique » pour améliorer sa prédiction et par « l’acteur » pour mieux choisir son action. Ceci se fait par un mécanisme de renforcement : le poids des synapses cortico-striatales menant à plus de récompenses est augmenté, tandis que celles menant à moins de récompenses voient leur poids diminué. Ainsi, lorsque le même contexte se représente, la prédiction du « critique » et l’action choisie par « l’acteur » sont mieux adaptées. Un rôle clé pour la dopamine Dans une étude récente d’IRM fonctionnelle (3), il a été montré qu’au cours d’un conditionnement instrumental, l’erreur de prédiction de la récompense se reflète au niveau du striatum, et que ce signal d’erreur est modulé par les drogues dopaminergiques (augmenté par la L-Dopa et diminué par l’haldol). En combinant neuro-ima-gerie fonctionnelle, manipulation pharmacologique et modélisation computationnelle, il a été possible de montrer que la dopamine, par son influence sur le striatum, guidait les choix des sujets de façon à maximiser les récompenses, suivant une dynamique analogue à celle du modèle « acteur/critique ». Lorsque les sujets ont été interrogés à l’issue de cette étude, certains disaient avoir « échantillonné » les réponses possibles de façon à estimer les probabilités de gains associées à chaque action, tandis que d’autres affirmaient n’avoir « rien compris » et suivi leur intuition. Dans tous les cas, les sujets n’avaient pas suivi consciemment les étapes computationnelles de notre algorithme formel. Ces résultats laissent supposer que les « computations » opérées par le striatum, sous l’influence de la dopamine, sont inaccessibles à l’esprit conscient, tout en étant capables d’influencer les décisions du sujet. En dehors du champ de la conscience Afin de tester cette hypothèse, une variante du paradigme original a été mise au point dans laquelle les indices étaient brièvement flashés et masqués de façon à ce que les sujets ne puissent pas les percevoir consciemment. Il a ainsi été vérifié sur le plan comportemental que les sujets apprenaient néanmoins à presser un bouton en réponse à l’indice subliminal annonçant la récompense (+ 1 ?), et à éviter d’appuyer en réponse à l’indice subliminal annonçant la punition (- 1 ?). De plus, lorsque les indices étaient dévoilés après le conditionnement, et que les sujets devaient les classer par ordre de préférence, les indices associés aux récompenses pendant la phase de conditionnement subliminal étaient majoritairement choisis. Ainsi, grâce à des appariements récurrents avec des gains et pertes d’argent, il est possible de conditionner les préférences des sujets vis-à-vis de stimuli qu’ils n’ont jamais perçus consciemment. Dans le striatum ventral L’IRM fonctionnelle a été utilisée pour tester l’implication du striatum dans le conditionnement subliminal. Il a ainsi été montré que le striatum ventral était capable, en fonction des récompenses obtenues ou manquées, d’intégrer la valeur d’indices présents dans notre environnement mais non perçus consciemment. Ce genre d’approche, combinant neuro-imagerie fonctionnelle, masquage perceptif et modélisation computationnelle, peut s’appliquer chaque fois que se pose la question de l’accès à la conscience d’opérations sophistiquées effectuées par notre cerveau. Encore et toujours la dopamine ! L’implication de la dopamine dans le conditionnement subliminal a ensuite été testée. Deux groupes de patients atteints soit de maladie de Parkinson (MP), soit de maladie de Gilles de la Tourette (MGT), ont ainsi été évalués avec et sans leurs traitements respectifs. Ces deux pathologies sont intéressantes car leurs traitements font appel à des médicaments « symétriques ». Dans la MP, la L-Dopa est prescrite pour favoriser la transmission dopaminergique, tandis que dans la MGT, cette dernière est réduite par l’administration de neuroleptiques. Les résultats montrent une double dissociation entre le type de traitement (L-Dopa versus neuroleptique) et le type de conditionnement (appétitif versus aversif). Si la transmission dopaminergique est bloquée, le conditionnement appétitif l’est aussi (apprentissage « à la carotte »). Tandis que si la transmission dopaminergique est augmentée, on interfère avec le conditionnement aversif (apprentissage « au bâton »). À l’insu de son plein gré ! La conclusion de l’ensemble de ces études est que notre cerveau dispose d’un système d’apprentissage inconscient qui, à l’aide de mécanismes analogues à ceux des algorithmes « acteur/ critique » utilisés en robotique, permet d’améliorer nos décisions en fonction des succès et des échecs rencontrés. Dans ce système, la dopamine joue le rôle de signal instructeur, nous guidant à notre insu vers les récompenses, sans toutefois nous éviter les punitions. Le déséquilibre induit par les agonistes dopaminergiques dans la sensibilité aux récompenses par rapport aux punitions pourrait notamment expliquer les comportements de jeu pathologique observé chez les patients parkinsoniens. L’existence d’un signal symétrique à celui de la dopamine, avertissant des écarts entre punitions attendues et punitions subies, reste à démontrer. La sérotonine représente une piste possible. Hypothèse qui sera testée prochainement à l’aide de notre épreuve de conditionnement subliminal en comparant les performances de patients atteints de trouble obsessionnel compulsif, traités ou non par antidépresseur.
Attention, pour des raisons réglementaires ce site est réservé aux professionnels de santé.
pour voir la suite, inscrivez-vous gratuitement.
Si vous êtes déjà inscrit,
connectez vous :
Si vous n'êtes pas encore inscrit au site,
inscrivez-vous gratuitement :