Наш интеллект знает, что живет в мультивселенной

Первый прорыв года, и это круто!

Великий физиолог И. Павлов использовал собак, чтоб понять, как учится их мозг, если собак поощрять за правильные действия и наказывать за неправильные.

Один из отцов ИИ М. Минский использовал тот же принцип при создании компьютера, способного непрерывно учиться, получая условные вознаграждения (т.н. обучение с подкреплением).

Этот метод сейчас широко используется во многих алгоритмах ИИ.

Но он, к сожалению, все же далеко не так хорошо и быстро учится, как человеческий мозг.

Первое прорывное открытие 2020 может решить эту проблему.

• Во-первых, наконец, поняв, почему человеческий мозг учится быстрей и эффективней.
• Во-вторых, переняв этот метод для ИИ, что сильно улучшит работу его алгоритмов.

Но больше всего поражает сам способ и лежащая в его основе божественная простота в сочетании с возможной фантастической спекуляцией о причинах этой простоты.

Все просто.

1) Принимая любое решение, мозг (а в случае ИИ — алгоритм) должен смоделировать будущее, чтоб адаптировать свое решение под него.

2) Цель такой адаптации всегда одна — получить вознаграждение за свой выбор: кусочек сахара для собаки, удовольствие человека в результате впрыска допамина или условное вознаграждение для обучающегося алгоритма.

3) До сих пор награда представлялась (собакам, людям, алгоритмам) в виде единственного варианта:

угадал — получи свой кусочек, впрыск и т.д.
не угадал — кури бамбук, а в следующий раз выбирай среди вариантов по-другому.

Новое открытие, сделанное в DeepMind, заключается в том, что мозг как бы знает,

✔️ что мир устроен сложно и в нем царит случайность;
✔️ поэтому здесь нет единственного варианта будущего, а есть вероятностные распределения для любого будущего события;
✔️ и потому представлять вознаграждение за любой свой выбор нужно не в виде единственного выбора (получу- не получу), а в видераспределения вероятностей получения вознаграждения.

Но держитесь за стул.

– Это значит, что в модели реальности, сидящей в нашем мозге, просто не существует единого будущего, в котором материализуется лишь один из возможных вариантов каждого из событий.

– Мозг будто знает, что живет в мультиверсе, в котором ВСЕ варианты событий возможны. И чтоб преуспеть в жизни, нужно их все держать в уме (в соответствие с заданным распределением вероятности)

«Удивительно, как эта очень простая реакция дофамина предсказуемо следует интуитивным паттернам основных биологических процессов обучения, которые теперь становятся компонентом ИИ»

— написал в емейле про это исследование Вольфрам Шульц, пионер поведения дофаминовых нейронов.

Последствия этого открытия многочисленны.

Оно позволит иначе взглянуть на многие процессы: от мотивации до психического здоровья.

Что может означать, например, наличие «пессимистичных» и «оптимистичных» допаминовых нейронов?
Если мозг избирательно прислушивается только к одному или другому, может ли это привести к химическому дисбалансу и вызвать депрессию?
И как вообще допаминовые нейроны выбирают предпочтительный вариант будущей реальности из бесконечного мультиверса возможных?

Подробней: