Новый взгляд на сигнализацию дофамина предполагает, что модель нейробиологов в области обучения с подкреплением, возможно, нуждается в пересмотре
Дофамин — мощный сигнал в мозге, влияющий на наше настроение, мотивацию, движения и многое другое. Нейромедиатор имеет решающее значение для обучения на основе вознаграждения, функции, которая может быть нарушена при ряде психиатрических состояний, от расстройств настроения до зависимости.
Теперь исследователи под руководством профессора Института Массачусетского технологического института Энн Грейбиел обнаружили удивительные закономерности в сигнальной активности дофамина, которые предполагают, что нейробиологам, возможно, придется усовершенствовать свою модель того, как происходит обучение с подкреплением в мозге. Результаты работы группы были недавно опубликованы в журнале Nature Communications .
Дофамин играет важнейшую роль в обучении людей и других животных сигналам и поведению, которые предвещают как положительные, так и отрицательные результаты; классическим примером такого типа обучения является собака, которую Иван Павлов обучил предчувствовать еду по звуку колокольчика.
Грейбиел, который также является исследователем в Институте Макговерна Массачусетского технологического института, объясняет, что согласно стандартной модели обучения с подкреплением, когда животное подвергается воздействию сигнала в паре с вознаграждением, клетки, вырабатывающие дофамин , первоначально активизируются в ответ на вознаграждение. По мере того, как животные усваивают связь между сигналом и вознаграждением, время высвобождения дофамина смещается, поэтому он начинает ассоциироваться со сигналом, а не с самим вознаграждением.
Однако благодаря новым инструментам, позволяющим проводить более детальный анализ того, когда и где в мозге высвобождается дофамин, команда Грейбиэля обнаружила, что эта модель не совсем верна.
Группа начала собирать подсказки о том, что модель обучения с подкреплением в этой области была неполной, более 10 лет назад, когда Марк Хоу, аспирант в лаборатории, заметил, что сигналы дофамина, связанные с вознаграждением, высвобождались не внезапным всплеском в момент получения вознаграждения, а вместо этого до этого, постепенно нарастая по мере того, как крыса приближалась к своему угощению. Они рассуждали, что дофамин может фактически сообщать остальной части мозга о близости вознаграждения. «Это совершенно не соответствовало стандартной, канонической модели», — говорит Грейбиел.
Динамика дофамина
Пока другие нейробиологи размышляли о том, как модель обучения с подкреплением могла бы учитывать эти результаты, Грейбиел и постдок Мин Джунг Ким решили, что пришло время более подробно рассмотреть динамику дофамина. «Мы подумали: давайте вернемся к самому базовому виду эксперимента и начнем все заново», — говорит она.
Это означало использование новых чувствительных датчиков дофамина для отслеживания высвобождения нейротрансмиттера в мозге мышей, когда они учились ассоциировать синий свет с удовлетворяющим глотком воды. Команда сосредоточила свое внимание на полосатом теле, области в базальных ганглиях мозга, где нейроны используют дофамин для влияния на нейронные цепи, участвующие в различных процессах, включая обучение на основе вознаграждения.
Исследователи обнаружили, что время высвобождения дофамина различается в разных частях полосатого тела. Но нигде команда Грейбиэля не обнаружила перехода во времени высвобождения дофамина от времени вознаграждения ко времени сигнала — ключевого перехода, предсказанного стандартной моделью обучения с подкреплением.
В простейших экспериментах команды, где каждый раз, когда мышь видела свет, он сопровождался вознаграждением, боковая часть полосатого тела надежно высвобождала дофамин, когда животным давали воду. Эта сильная реакция на вознаграждение никогда не ослабевала, даже когда мыши научились ожидать вознаграждение, когда они видели свет.
В медиальной части полосатого тела, напротив, дофамин никогда не высвобождался во время вознаграждения. Клетки там всегда активировались, когда мышь видела свет, даже на ранних этапах процесса обучения. Это было загадочно, говорит Грейбиел, потому что в начале обучения дофамин, как можно было бы предсказать, реагировал бы на само вознаграждение.
Закономерности высвобождения дофамина стали еще более неожиданными, когда команда Грейбиэля ввела в экспериментальную установку второй свет. Новый свет, находившийся в другом месте, чем первый, не сигнализировал о награде. Мыши наблюдали, как один из светов подавался в качестве сигнала, по одному за раз, при этом вода сопровождала только исходный сигнал.
В этих экспериментах, когда мыши видели свет, связанный с вознаграждением, высвобождение дофамина увеличивалось в центромедиальном стриатуме и, что удивительно, сохранялось до тех пор, пока не было получено вознаграждение. В боковой части региона дофамин также включал длительный период, когда сигнализация выходила на плато.
Грейбиел говорит, что была удивлена, увидев, насколько изменились реакции дофамина, когда экспериментаторы включали второй свет. Реакции на поощряемый свет были другими, когда в других испытаниях можно было показывать другой свет, даже несмотря на то, что мыши видели только один свет за раз. «Должен быть когнитивный аспект, который вступает в игру», — говорит она. «Мозг хочет удерживать информацию о том, что сигнал появился, некоторое время».
Клетки в полосатом теле, по-видимому, достигают этого посредством устойчивого высвобождения дофамина, которое продолжалось в течение короткой задержки между светом и вознаграждением в экспериментах команды. Действительно, говорит Грейбиел, хотя этот тип устойчивого высвобождения дофамина ранее не был связан с подкрепляющим обучением, он напоминает устойчивую сигнализацию, которая была связана с рабочей памятью в других частях мозга.
Переосмысленное обучение с подкреплением
В конечном итоге, говорит Грейбиел, «многие из наших результатов не соответствуют моделям обучения с подкреплением, которые традиционно — и теперь уже канонически — рассматривались». Это говорит о том, что понимание этого процесса нейробиологами должно будет развиваться в рамках углубляющегося понимания мозга в этой области .
«Но это всего лишь один шаг, который поможет нам всем усовершенствовать наше понимание и переформулировать модели того, как базальные ганглии влияют на движение, мысли и эмоции. Эти переформулировки должны будут включать сюрпризы о системе обучения с подкреплением по отношению к этим плато, но они, возможно, дадут нам представление о том, как отдельный опыт может задерживаться в этой связанной с подкреплением части нашего мозга», — говорит она.