Спeциaлисты пoдрaздeлeния DeepMind кoмпaнии Google рaзрaбoтaли и испытaли рaбoту свoeгo рoдa ускoритeля прoцeссa сaмooбучeния и пoзнaвaния для рaзрaбaтывaeмыx ими систeм искусствeннoгo интeллeктa. Этoт ускoритeль пoлучил нaзвaниe aгeнт UNREAL (Unsupervised Reinforcement and Auxiliary Learning) и его работа уже была проверена на 57 простейших играх для компьютера Atari и среде трехмерного лабиринта Labyrinth, которая насчитывает 13 уровней.
Лиэм Танг (Liam Tung), рассказывая об агенте UNREAL, указал, что в основу его работы были заложены те же самые принципы познавания и самообучения, которые в свое время позволили искусственному интеллекту одержать победу над Ли Сеголем, мировым чемпионом по древней китайской игре Го. А создавался этот агент с целью ускорения работы алгоритмов искусственного интеллекта и нейронных сетей, разрабатываемых сотрудниками подразделения DeepMind.
«Наши самообучаемые системы уже добились значительных успехов в игре Го и в играх для старых компьютеров» — пишут исследователи в официальном блоге DeepMind, — «Однако, на их подготовку, первоначальное обучение и последующее самообучение тратится слишком много времени».
Прорыв в скорости самообучения и познавания был достигнут за счет внедрения в алгоритм двух новых ключевых моментов, двух процессов. Первым моментом является изучение того, как те или иные действия затрагивают отображаемое на экране компьютера изображение, которое является единственным типом данных, подаваемых на вход систем искусственного интеллекта. «Раньше в процессе обучения наши системы учились прогнозировать, к чему может привести то или иное действие. Теперь же система будет достоверно знать это с достаточной точностью. Этот новый процесс весьма напоминает то, как ребенок учится управлять своими руками, двигая ими и наблюдая за результатом».
Вторым моментом, ускоряющим процесс обучения, является возможность повторного анализа уже произошедших ситуаций, в ходе которых системой был приобретен тот или иной опыт. «Это походит на то, как человек иногда прокручивает у себя в голове некоторые из моментов компьютерных игр, в которых ему удалось добиться успеха или совершить желаемое действие. При этом человек склонен вспоминать и те моменты, когда им был получен отрицательный результат и отрицательный опыт».
«Сейчас наш агент обыгрывает среднестатистического человека на 880 процентов в простейших компьютерных играх. А при решении более сложных задач в трехмерном лабиринте, он показывает 10-кратное увеличение скорости самообучения и среднее 87-процентное превосходство над человеком, демонстрируя в некоторые моменты времени поистине сверхчеловеческие возможности».
В ближайшем времени специалисты DeepMind планируют адаптировать агента UNREAL к действиям в более сложной окружающей среде, нежели простейшие компьютерные игры и трехмерные лабиринты. А это, в свою очередь, позволит использовать быстрообучаемые системы искусственного интеллекта в реальном мире для решения реальных задач.