На видеозаписях YouTube, а также сериалах «Офис» и «Отчаянные домохозяйки» нейронную сеть обучали предсказывать, что сделают персонажи при встрече: обнимутся, поцелуются, пожмут руки или поприветствуют друг друга ударом ладоней. Еще одна способность, которой пытаются обучить свою систему ученые, — прогнозировать, какие объекты могут появиться на видеозаписи через пять секунд.
Всего для обучения использовались 600 часов неразмеченных видеозаписей, затем программу проверяли на еще не известных ей роликах. Когда компьютеру показывали людей за секунду до выполнения одного из четырех приветственных действий, алгоритм верно предсказывал продолжение в 43% случаев. Для сравнения, люди выполняли то же задание с долей успеха 71%. С предсказанием появления объектов в кадре (пример: если на видео кто-то открывает микроволновку, вероятно появление кофейной чашки) система справлялась гораздо хуже — всего 11%. Но исследователи уверены, что дополнительное обучение позволит улучшить способности компьютера.
Возможные применения разработки — навигационные системы роботов, вспомогательная техника для аварийно-спасательных служб и компьютеризированные очки, подсказывающие действия в разных ситуациях.