Искусственный интеллект EfficientViT в девять раз улучшил зрение у беспилотных автомобилей
Автономное транспортное средство должно быстро и точно распознавать объекты, к которым приближается, от стоящего на холостом ходу грузовика доставки на углу до велосипедиста, несущегося к перекрёстку.
Новую систему искусственного интеллекта (ИИ) представили исследователи из Массачусетского технологического института (MIT) и совместная лаборатория MIT-IBM Watson AI Lab. EfficientViT — это мощная модель компьютерного зрения, которая быстро разбивает изображении на фрагменты по значению (семантике) с высоким разрешением в реальном времени. То есть благодаря изобретению движущийся автомобиль без водителя сразу же распознаёт, где перед ним люди и другие машины. Беспилотный транспорт благодаря бортовому компьютеру с EfficientViT может определить за доли секунды, что означает: обрабатывается каждый пиксель изображения с высоким разрешением, чтобы не упускать объекты из виду.
Но эта задача, известная как семантическая сегментация, сложна и требует огромного объёма вычислений. Иные модели для этого напрямую анализируют взаимодействие между каждой парой пикселей на изображении. Поэтому их вычисления множатся в квадратной степени по мере увеличения разрешения. Так что даже точные модели слишком медленны для обработки изображений на периферийном устройстве, таком как смартфоны. Чтобы ускорить систему, исследователи MIT разработали иную модель семантической сегментации. Она обеспечивает те же возможности, что и другие, но с линейной вычислительной сложностью и аппаратно-эффективными операциями.
В результате получилась новая серия моделей компьютерного зрения высокого разрешения, которые при развёртывании на мобильном устройстве работают в девять раз быстрее, чем прочие. Важно отметить, что эта новая серия моделей продемонстрировала такую же или лучшую точность, чем альтернативы.
Необходимые для такого успеха преобразователи (трансформеры) изначально были созданы для обработки естественного языка. Они кодируют каждое слово в предложении как отличительный признак (маркер). А затем — генерируют карту внимания, которая фиксирует взаимосвязь каждого маркера с другими. Эта карта внимания помогает модели понимать текущее значение (контекст), когда та делает прогнозы.
Используя ту же концепцию для обработки изображений, преобразователь зрения разбивает видимое машиной на участки и кодирует каждый из них в маркер перед созданием карты внимания. При этом модель использует функцию подобия, которая напрямую изучает взаимодействие между каждой парой пикселей. Таким образом, модель развивает так называемое глобальное поле восприятия. То есть она может получить доступ ко всем частям изображения. Поскольку воспринимаемая сцена с высоким разрешением может содержать миллионы пикселей, разбитых на тысячи участков, карта внимания быстро становится огромной. И устройство начинает тормозить, как указано выше.
Для EfficientViT исследователи MIT использовали более простой механизм для построения карты внимания. Они заменили нелинейную функцию подобия линейной. Таким образом они могут изменять порядок операций, чтобы сократить общее количество вычислений без изменения функциональности. В их модели объём вычислений, необходимый для прогнозирования, с повышением разрешения картинки растёт линейно, по прямой, а не в квадратной степени.

Но профессор Сон Хан, первый автор научной работы, признал, что и в таком случае «бесплатного обеда не бывает». То есть линейное внимание фиксирует только общий контекст изображения, теряя частную информацию, что ухудшает точность. Чтобы компенсировать недостаток, исследователи включили в свою модель два дополнительных компонента, каждый из которых лишь ненамного повышает объём вычислений. Один из них помогает модели фиксировать взаимодействия локальных объектов. Второй модуль обеспечивает многомасштабное обучение, помогая EfficientViT распознавать как большие, так и маленькие объекты.
Из-за необходимости тщательно сбалансировать производительность и экономичность, EfficientViT разработали с аппаратно-ориентированной архитектурой, чтобы модель было проще запускать на различных типах устройств.
Основываясь на полученных результатах, исследователи хотят применить этот метод для ускорения генеративных моделей машинного обучения, которые используются для создания новых изображений. Они также хотят продолжить масштабирование EfficientViT для других визуальных задач. Например — в медицине.
Новую систему искусственного интеллекта (ИИ) представили исследователи из Массачусетского технологического института (MIT) и совместная лаборатория MIT-IBM Watson AI Lab. EfficientViT — это мощная модель компьютерного зрения, которая быстро разбивает изображении на фрагменты по значению (семантике) с высоким разрешением в реальном времени. То есть благодаря изобретению движущийся автомобиль без водителя сразу же распознаёт, где перед ним люди и другие машины. Беспилотный транспорт благодаря бортовому компьютеру с EfficientViT может определить за доли секунды, что означает: обрабатывается каждый пиксель изображения с высоким разрешением, чтобы не упускать объекты из виду.
Но эта задача, известная как семантическая сегментация, сложна и требует огромного объёма вычислений. Иные модели для этого напрямую анализируют взаимодействие между каждой парой пикселей на изображении. Поэтому их вычисления множатся в квадратной степени по мере увеличения разрешения. Так что даже точные модели слишком медленны для обработки изображений на периферийном устройстве, таком как смартфоны. Чтобы ускорить систему, исследователи MIT разработали иную модель семантической сегментации. Она обеспечивает те же возможности, что и другие, но с линейной вычислительной сложностью и аппаратно-эффективными операциями.
В результате получилась новая серия моделей компьютерного зрения высокого разрешения, которые при развёртывании на мобильном устройстве работают в девять раз быстрее, чем прочие. Важно отметить, что эта новая серия моделей продемонстрировала такую же или лучшую точность, чем альтернативы.
Необходимые для такого успеха преобразователи (трансформеры) изначально были созданы для обработки естественного языка. Они кодируют каждое слово в предложении как отличительный признак (маркер). А затем — генерируют карту внимания, которая фиксирует взаимосвязь каждого маркера с другими. Эта карта внимания помогает модели понимать текущее значение (контекст), когда та делает прогнозы.
Используя ту же концепцию для обработки изображений, преобразователь зрения разбивает видимое машиной на участки и кодирует каждый из них в маркер перед созданием карты внимания. При этом модель использует функцию подобия, которая напрямую изучает взаимодействие между каждой парой пикселей. Таким образом, модель развивает так называемое глобальное поле восприятия. То есть она может получить доступ ко всем частям изображения. Поскольку воспринимаемая сцена с высоким разрешением может содержать миллионы пикселей, разбитых на тысячи участков, карта внимания быстро становится огромной. И устройство начинает тормозить, как указано выше.
Для EfficientViT исследователи MIT использовали более простой механизм для построения карты внимания. Они заменили нелинейную функцию подобия линейной. Таким образом они могут изменять порядок операций, чтобы сократить общее количество вычислений без изменения функциональности. В их модели объём вычислений, необходимый для прогнозирования, с повышением разрешения картинки растёт линейно, по прямой, а не в квадратной степени.

Но профессор Сон Хан, первый автор научной работы, признал, что и в таком случае «бесплатного обеда не бывает». То есть линейное внимание фиксирует только общий контекст изображения, теряя частную информацию, что ухудшает точность. Чтобы компенсировать недостаток, исследователи включили в свою модель два дополнительных компонента, каждый из которых лишь ненамного повышает объём вычислений. Один из них помогает модели фиксировать взаимодействия локальных объектов. Второй модуль обеспечивает многомасштабное обучение, помогая EfficientViT распознавать как большие, так и маленькие объекты.
Из-за необходимости тщательно сбалансировать производительность и экономичность, EfficientViT разработали с аппаратно-ориентированной архитектурой, чтобы модель было проще запускать на различных типах устройств.
Основываясь на полученных результатах, исследователи хотят применить этот метод для ускорения генеративных моделей машинного обучения, которые используются для создания новых изображений. Они также хотят продолжить масштабирование EfficientViT для других визуальных задач. Например — в медицине.
- Дмитрий Ладыгин
- youtube.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
«Цирк Шубикова» с бомбами: как в СССР создали «невозможный» авианосец
Самолеты атаковали противника, срываясь с летающей авиабазы. Это пытались сделать и США, и Германия, но получилось только у Советского Союза...
Медный парадокс: почему электричество никогда не придет в каждый дом
Эксперты считают, что развитие цивилизации уперлось в мощный геологический барьер. Кто виноват и как выходить из этой ситуации?...
Тайна разгадана: почему люди — это единственные приматы с подбородком
Оказалось, что эволюция действует не так, как столетиями считали ученые...
«Проклятие» Романовых: отчего на самом деле умер брат Петра I, царь Федор?
Российские ученые разгадали болезнь, которая свела в могилу старшую ветвь царской семьи...
Обнаружены, но обречены: кто угрожает гробницам, которые старше первых пирамид?
6000-летняя культура, обнаруженная спутниками, была уникальной. Она застала времена, когда Сахара была еще зеленой...
Новое исследование: Христофор Колумб — вообще не тот, кем его считали историки
Ученые даже назвали подлинное имя великого мореплавателя...
Еще одна тайна Аркаима разгадана: ученые объяснили, почему древний город построен именно на этом месте
Оказалось, что наши далекие предки очень умело использовали природную инфраструктуру и обладали инженерными знаниями...
60 млрд Солнц в одной точке: что скрывает самая тяжелая пара черных дыр?
Секрет абсолютной пустоты, похоже, разгадан. Там нет вообще ничего: Ни пыли, ни газа, ни звезд...
Назад в будущее: почему Швеция запрещает смартфоны в школах и возвращается к бумажным учебникам?
По словам экспертов, отмена цифровизации сейчас происходит во многих странах. Неужели человечество одумалось и начинает выздоравливать?...
СССР был первым в энергии ветра: что помешало стать лидером планеты?
Это был невероятный и прорывной проект советского конструктора Юрия Кондратюка. Того самого, по расчетам которого, американцы полетели на Луну...
Мы все «марсиане»: ученые доказали, что жизнь с Красной планеты могла долететь за несколько лет
Компьютерное моделирование подтвердило: бактерии способны пережить Великий перенос с Марса на Землю. И этот процесс может идти прямо сейчас...
В тени российского орла: сколько раз Петербург спасал Вашингтон от полной гибели?
Когда-то американцы клялись, что США будет дружить с Россией, покуда светят звезды. А сейчас делают вид, что не помнят...