Модель обучения RoboCat берётся за новые задачи и не прекращает учиться
Мечта о роботе общего назначения стала немного ближе благодаря модели RoboCat, которая легко берётся за новые задачи и никогда не прекращает учиться. RoboCat позволяет роботизированным рукам-манипуляторам осваивать всё больше и больше разных навыков.
У роботов-универсалов много преимуществ по сравнению с созданными для одной конкретной цели. Гибкость делает многозадачные устройства более полезными в различных условиях, поскольку они не потребуют значительного перепрограммирования и технических модификаций. Ещё одно бесспорное преимущество роботов общего назначения — возможность сэкономить. Вместо того чтобы тратиться на несколько специализированных роботов для разных задач, можно использовать одного для различных функций. Очевидны снижение затрат и на техобслуживание при повышении эффективности.
Во всей описанной прекрасной картине есть одно, но огромное «но»: пока нет (или, возможно, есть, но очень мало) роботов, которые были бы мастерами на все руки. Проблема в том, что роботов общего назначения очень сложно построить. Но цель разработать и настроить алгоритм обучения, чтобы выполнять любую произвольную команду, настолько заманчива, что её решили приблизить. На сложную задачу замахнулась команда исследователей из Google DeepMind, разработав базовую модель для управления манипуляторами.
«РобоКот» — это визуальный преобразователь решений, обусловленный поставленной целью, который обучался на видеороликах с сотнями выполняемых заданий. Данные для обучения собирали от различных манипуляторов реальных действующих роботов, а также из моделируемых на компьютере сред. Система опирается на знания, полученные из разнообразного набора данных для начального обучения, а затем учится выполнять новые задачи всего после 100 просмотров «развивающего» материала. У первоначальной модели был показатель успеха около 36% при выполнении ранее невиданных ею задач, причём после 500 демонстраций «уроков». Но после обучения новому показатель успеха более чем удвоился.
Как платформа RoboCat совершенствуется самостоятельно? После усвоения новой задачи запускается агент, который отрабатывает свежий навык около 10 тыс. раз. Так собираются дополнительные обучающие данные. Затем сгенерированные данные используются в другом раунде обучения, что позволяет модели самосовершенствоваться без дополнительных вводных.
Команда учёных проверила свои методы в серии экспериментов. В одном случае выяснилось, что модель, обученная управлять роботизированной рукой с двупалым захватом, смогла также управлять более сложным трёхпалым захватом всего за несколько часов. За такое же время система способна научиться, например, брать правильный фрукт из вазы или складывать головоломку.
Впрочем, представленные Google DeepMind успехи пока ещё не привели к созданию робота общего назначения. Но это был важный шаг к достижению цели. Универсальность и адаптивность продемонстрированных методов значительно продвигают дело вперёд. Возможно, со временем другие группы исследователей подхватят тематику и продолжать развивать это направление. Что касается конкретной исследовательской группы RoboCat, то они теперь рассматривают вопрос дальнейшего совершенствованию своей умнеющей с каждым днём модели.
У роботов-универсалов много преимуществ по сравнению с созданными для одной конкретной цели. Гибкость делает многозадачные устройства более полезными в различных условиях, поскольку они не потребуют значительного перепрограммирования и технических модификаций. Ещё одно бесспорное преимущество роботов общего назначения — возможность сэкономить. Вместо того чтобы тратиться на несколько специализированных роботов для разных задач, можно использовать одного для различных функций. Очевидны снижение затрат и на техобслуживание при повышении эффективности.
Во всей описанной прекрасной картине есть одно, но огромное «но»: пока нет (или, возможно, есть, но очень мало) роботов, которые были бы мастерами на все руки. Проблема в том, что роботов общего назначения очень сложно построить. Но цель разработать и настроить алгоритм обучения, чтобы выполнять любую произвольную команду, настолько заманчива, что её решили приблизить. На сложную задачу замахнулась команда исследователей из Google DeepMind, разработав базовую модель для управления манипуляторами.
«РобоКот» — это визуальный преобразователь решений, обусловленный поставленной целью, который обучался на видеороликах с сотнями выполняемых заданий. Данные для обучения собирали от различных манипуляторов реальных действующих роботов, а также из моделируемых на компьютере сред. Система опирается на знания, полученные из разнообразного набора данных для начального обучения, а затем учится выполнять новые задачи всего после 100 просмотров «развивающего» материала. У первоначальной модели был показатель успеха около 36% при выполнении ранее невиданных ею задач, причём после 500 демонстраций «уроков». Но после обучения новому показатель успеха более чем удвоился.
Как платформа RoboCat совершенствуется самостоятельно? После усвоения новой задачи запускается агент, который отрабатывает свежий навык около 10 тыс. раз. Так собираются дополнительные обучающие данные. Затем сгенерированные данные используются в другом раунде обучения, что позволяет модели самосовершенствоваться без дополнительных вводных.
Команда учёных проверила свои методы в серии экспериментов. В одном случае выяснилось, что модель, обученная управлять роботизированной рукой с двупалым захватом, смогла также управлять более сложным трёхпалым захватом всего за несколько часов. За такое же время система способна научиться, например, брать правильный фрукт из вазы или складывать головоломку.
Впрочем, представленные Google DeepMind успехи пока ещё не привели к созданию робота общего назначения. Но это был важный шаг к достижению цели. Универсальность и адаптивность продемонстрированных методов значительно продвигают дело вперёд. Возможно, со временем другие группы исследователей подхватят тематику и продолжать развивать это направление. Что касается конкретной исследовательской группы RoboCat, то они теперь рассматривают вопрос дальнейшего совершенствованию своей умнеющей с каждым днём модели.
- Дмитрий Ладыгин
- youtu.be/535W4Pih1C0
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Анализ ДНК с Туринской плащаницы сильно удивил ученых, точнее, даже озадачил
Эксперты говорят: выделить «геном Христа» вряд ли получится. И вообще, этот артефакт никогда не был в Святой Земле. Как же так?...
Припрятал сокровища, но был убит: историки раскрыли трагическую судьбу владельца богатейшего клада Москвы
Почему наследники так и не нашли это огромное состояние, хотя ходили по нему каждый день?...
Пчелы стремительно исчезают в России: из-за чего так происходит и чем это грозит россиянам?
Почему ученые считают, что государство самоустранилось от решения данной проблемы?...
ЦРУ массово создавало зомби-убийц: новое расследование подтвердило это еще раз
Эксперт уверен: убийца Кеннеди и самый известный американский маньяк — это продукты тогдашних экспериментов над сознанием...
Тайна 12 000-летнего города у берегов США: ученый-любитель уверен, что нашел затонувший мегаполис неизвестной цивилизации
Кто победит: официальная наука или энтузиазм непрофессионала? Разбираемся в этой запутанной истории...
Тайну «проклятия фараонов» раскрыло письмо столетней давности
Открыватель гробницы Тутанхамона, археолог Говард Картер, прямо называл имя человека, который изобрел «сенсацию». В итоге потрясающее научное открытие...
«Боевые роботы» СССР на Зимней войне: как уникальные танки без экипажей вызывали ужас у финнов
Эксперты назвали главные причины, почему прорывной проект Остехбюро был закрыт...
Что не так с отстрелом бакланов на Байкале: почему иркутский биолог раскритиковал планы областной администрации?
Профессор Сергей Пыжьянов предупреждает: ответ, который может дать природа, сведет на нет все усилия человека. В итоге будет только хуже...
Еще одно пророчество Жириновского сбывается прямо сейчас. Белые люди едут в Россию
По словам экспертов, на этот раз все очень серьезно. Договариваться о переселенцах приехал Эролл Маск, отец знаменитого миллиардера...
Кусочек мха помог раскрыть запутанное дело о разграблении могил
Преступники имели очень сильное алиби, но хлорофилловые часы сдали их с поличным...