Первый прорыв года, и это круто!
Великий физиолог И. Павлов использовал собак, чтоб понять, как учится их мозг, если собак поощрять за правильные действия и наказывать за неправильные.
Один из отцов ИИ М. Минский использовал тот же принцип при создании компьютера, способного непрерывно учиться, получая условные вознаграждения (т.н. обучение с подкреплением).
Этот метод сейчас широко используется во многих алгоритмах ИИ.
Но он, к сожалению, все же далеко не так хорошо и быстро учится, как человеческий мозг.
Первое прорывное открытие 2020 может решить эту проблему.
• Во-первых, наконец, поняв, почему человеческий мозг учится быстрей и эффективней.
• Во-вторых, переняв этот метод для ИИ, что сильно улучшит работу его алгоритмов.
Но больше всего поражает сам способ и лежащая в его основе божественная простота в сочетании с возможной фантастической спекуляцией о причинах этой простоты.
Все просто.
1) Принимая любое решение, мозг (а в случае ИИ — алгоритм) должен смоделировать будущее, чтоб адаптировать свое решение под него.
2) Цель такой адаптации всегда одна — получить вознаграждение за свой выбор: кусочек сахара для собаки, удовольствие человека в результате впрыска допамина или условное вознаграждение для обучающегося алгоритма.
3) До сих пор награда представлялась (собакам, людям, алгоритмам) в виде единственного варианта:
- угадал — получи свой кусочек, впрыск и т.д.
- не угадал — кури бамбук, а в следующий раз выбирай среди вариантов по-другому.
Новое открытие, сделанное в DeepMind, заключается в том, что мозг как бы знает,
✔️ что мир устроен сложно и в нем царит случайность;
✔️ поэтому здесь нет единственного варианта будущего, а есть вероятностные распределения для любого будущего события;
✔️ и потому представлять вознаграждение за любой свой выбор нужно не в виде единственного выбора (получу- не получу), а в видераспределения вероятностей получения вознаграждения.
Но держитесь за стул.
– Это значит, что в модели реальности, сидящей в нашем мозге, просто не существует единого будущего, в котором материализуется лишь один из возможных вариантов каждого из событий.
– Мозг будто знает, что живет в мультиверсе, в котором ВСЕ варианты событий возможны. И чтоб преуспеть в жизни, нужно их все держать в уме (в соответствие с заданным распределением вероятности)
«Удивительно, как эта очень простая реакция дофамина предсказуемо следует интуитивным паттернам основных биологических процессов обучения, которые теперь становятся компонентом ИИ»
— написал в емейле про это исследование Вольфрам Шульц, пионер поведения дофаминовых нейронов.
Последствия этого открытия многочисленны.
Оно позволит иначе взглянуть на многие процессы: от мотивации до психического здоровья.
- Что может означать, например, наличие «пессимистичных» и «оптимистичных» допаминовых нейронов?
- Если мозг избирательно прислушивается только к одному или другому, может ли это привести к химическому дисбалансу и вызвать депрессию?
- И как вообще допаминовые нейроны выбирают предпочтительный вариант будущей реальности из бесконечного мультиверса возможных?
Подробней: