Машины учатся предсказывать будущее

Когда мы видим встречу двух людей, чаще всего мы можем предсказать, что произойдет — они пожмут руки, обнимутся или поцелуются. Наша способность предугадывать действия рождается из жизненного опыта. На этой неделе исследователи из Массачусетского технологического института сделали важный прорыв в концепции прогнозирования, разработав алгоритм, который может предвидеть взаимодействия людей точнее, чем когда-либо.

Система искусственного зрения, созданная по алгоритму глубинного обучения в Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (Computer Science and Artificial Intelligence Lab of Massachusetts Institute of Technology), с помощью телевизионных сериалов предсказывает взаимодействие людей.

Когда мы видим встречу двух людей, чаще всего мы можем предсказать, что произойдет — они пожмут руки, обнимутся или поцелуются. Наша способность предугадывать действия рождается из жизненного опыта.

Компьютерные системы, способные прогнозировать действия, открывают новые возможности развития ИИ, начиная от роботов, которые смогут лучше ориентироваться среди людей, и заканчивая системами реагирования на чрезвычайные ситуации и гарнитурой типа гугл-очков, которая подскажет, что делать в разных ситуациях.

На этой неделе исследователи из Массачусетского технологического института сделали важный прорыв в концепции прогнозирования, разработав алгоритм, который может предвидеть взаимодействия людей более точно чем когда-либо прежде.

Обученная на видео и телевизионных шоу, таких как «Офис» и «Отчаянные домохозяйки», система может предсказать, обнимутся ли два человека при встрече, пожмут руки, поцелуются или дадут пять. Она также может предвидеть, появится ли объект в кадре в ближайшие пять секунд.

«Люди учатся предвидеть действия через опыт, нам интересно наполнить им компьютеры, — говорит ведущий автор работы Карл Вондрик (Carl Vondrick). — Мы хотели показать, что, просматривая большое количество видео, компьютеры могут получить достаточно знаний, чтобы постоянно делать прогнозы о происходящем вокруг».

Как это работает

Последние попытки создания предсказывающего машинного зрения совершались с помощью одного из двух. Первый способ заключается в том, чтобы посмотреть на отдельные пиксели изображения и использовать эти знания для создания фотореалистичных изображений. Попиксельно — задача, которую Вондрик описывает как «трудную даже для профессионального художника, а тем более для алгоритма». Второй способ — люди маркируют сцену для компьютера заранее, что нецелесообразно для предсказаний действий большого масштаба.

В новой работе исследователи создали алгоритм, который предсказывает «визуальные представления» — стоп-кадры, показывающие разные версии того, как сцена может выглядеть.

Алгоритм создан по методам глубинного обучения — архитектуры в области искусственного интеллекта, которая использует систему под названием «нейронные сети», чтобы научить компьютеры работать с огромными объемами данных и самостоятельно находить закономерности.

Каждая из сетей алгоритма прогнозирует представление, которое автоматически классифицируется как одно из четырех действий — в данном случае объятие, рукопожатие, «дай пять» или поцелуй. Затем система объединяет эти действия в одно и выдает соответственный прогноз. Например, три сети могут предсказать поцелуй, в то время как четвертая заметит, что в кадр вошел еще один человек, и предскажет объятие.

«Будущее по своей природе неоднозначно, поэтому интересно бросить себе вызов и разработать систему, которая использует эти представления, чтобы предвидеть все возможности», — говорит Вондрик.

Как это сделано

Алгоритм обучался 600 часов на видео, после чего команда тестировала его на новых роликах как с действиями, так и с предметами в кадре.

Когда исследователи показывали видео с людьми, которые в следующую секунду выполняли одно из четырех действий, алгоритм правильно предсказать действие более чем в 43% случаев. Существующие алгоритмы бывают правы только в 36% случаев.

Во втором исследовании алгоритму показали кадр и попросили предсказать, какой объект появится через пять секунд. Например, если кто-то открывает микроволновую печь, можно предположить, что появится тарелка с едой. Алгоритм предсказал объект в кадре на 30% точнее, чем базовые измерители.

Стоит отметить, что даже люди совершают ошибки в решении этих задач — только в 71% случаев они правильно предсказали действия. «Есть много тонкостей в понимании и прогнозировании взаимодействия людей, — говорит Вондрик. — Мы надеемся, что сможем отработать этот пример, чтобы иметь возможность в ближайшее время предсказывать более сложные вещи».

Что дальше

Ученые считают, что следующие версии алгоритма могут быть использованы для всего — от разрабатывающих порядок действий роботов до камер наблюдений, которые смогут предупредить экстренные ситуации, если кто-то упадет или получит травму.

Оригинал работы на сайте Массачусетского технологического института.

теги:

искусственный интеллект, новость, исследование, будущее