Google делает роботов умнее, объясняя им, что они могут делать, а что нет

Те, кто использует интеллектуальных голосовых помощников, таких как «Алиса», Siri и т.д., вероятно, заметили, что технология становится умнее с каждым днём. Тем не менее разрыв между технологиями голосового управления и реализацией их в автономной робототехнике по-прежнему огромен, и на это есть целый ряд причин.

Следующая задача — понять, на что на самом деле способен робот. Робот может понять просьбу достать предмет с полки, но проблема в том, что он не сможет дотянуться до него, так как полка находится слишком высоко. Google называет «возможностями» то, что может делать робот более-менее успешно. Это могут быть простые задачи («продвиньтесь на метр вперёд»), более сложные задачи («найди банку колы на кухне»), а также сложные, многоэтапные действия, требующие от робота понимания собственных способностей и окружающего мира. Например, «Уф, я пролил свою колу на пол. Не могли бы вы вытереть лужу и принести мне новый напиток?». В последнем случае роботу будет необходимо разбить задачу на ряд этапов — определить место, где пролита жидкость, пойти на кухню, найти губку, вернуться назад, собрать воду, опять пойти на кухню, чтобы выжать губку и т.д. Хотя, возможно, ему нужно определиться — может быть лучше сначала принести банку колы, а потом заняться устранением лужи?

Ещё одна проблема, с которой сталкивается робототехника, заключается в том, что языковые модели не привязаны к физическому миру. Например, на запрос «Я пролил свой напиток, вы можете помочь?» языковая модель GPT-3 отвечает: «Вы можете попробовать использовать пылесос». И это имеет смысл для неё, так как языковая модель ассоциирует пылесос с процессом уборки. Хотя пылесос не предназначен для устранения лужи и попытка сделать это может привести к его поломке.

Как утверждают в Google, важно научить роботов определять, что они могут и чего не могут делать, и что имеет смысл делать в первую очередь в различных ситуациях.