Microsoft представил модель искусственного интеллекта, которая понимает содержимое изображений и решает визуальные головоломки
Исследователи из Microsoft представили Kosmos-1, мультимодальную модель, которая, как сообщается, может анализировать изображения на наличие контента, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке. Исследователи считают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию искусственного общего интеллекта (AGI), способного решать общие задачи на уровне человека.
— выдержка из исследовательской статьи.
Наглядные примеры из статьи «Kosmos-1» показывают, как модель анализирует изображения и отвечает на вопросы о них, воспринимает текст с изображения, добавляет свои комментарии и проходит визуальный IQ-тест с точностью 22–26 процентов (подробнее об этом ниже).

В то время как СМИ пестрят новостями о больших языковых моделях (LLM), некоторые эксперты выделяют мультимодальный ИИ как потенциальный путь к общему искусственному интеллекту, гипотетической технологии, которая сможет заменить человека в любой интеллектуальной работе.
AGI — это заявленная цель OpenAI, ключевого делового партнера Microsoft в области искусственного интеллекта. Однако в данном случае Kosmos-1 — сольный проект Microsoft, созданный без участия OpenAI. Исследователи называют свое творение «мультимодальной моделью большого языка» (MLLM), так как она включает себя принципы обработки естественного языка, подобные тем, которые использует для понимания текста LLM вроде ChatGPT. Говоря проще: чтобы «Kosmos-1» мог принимать входные изображения, исследователи должны сначала преобразовать изображение в специальную серию токенов (представленных текстом), пригодные для понимания LLM. В статье «Kosmos-1», опубликованной исследователями, это описано более подробно.
— из статьи «Kosmos-1».
Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая тест на понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, классификацию изображений и многие другие. По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Особый интерес представляет результат Kosmos-1 в тесте Raven's Progressive Reasoning, который измеряет визуальный IQ, представляя последовательность форм и предлагая испытуемому завершить последовательность. Чтобы протестировать «Kosmos-1», исследователи задали ему заполненный тест, с уже заполненными вариантами ответа, и попросили проверить их правильность. Kosmos-1 мог правильно ответить на вопросы из теста Raven только в 22 процентах случаев (в 26 процентах при тонкой настройке). Это ни в коем случае не окончательная победа, и ошибки в методологии могли повлиять на результаты, однако «Kosmos-1» все же превзошел случайный шанс выбора правильного ответа (17 процентов) для теста Raven IQ.

Хотя «Kosmos-1» представляет собой ранние шаги в направлении создания мультимодального ИИ, не сложно представить, что будущие исследования принесут еще более значительные результаты, позволив моделям ИИ воспринимать любые формы медиа и взаимодействовать с ними. В потенциале это значительно расширит возможности помощников на основе искусственного интеллекта. Исследователи говорят, что в будущем они хотели бы увеличить размер модели Kosmos-1, а также интегрировать возможность голосового взаимодействия.
Microsoft заявляет, что планирует сделать Kosmos-1 доступным для разработчиков, хотя на странице GitHub, на которую ссылается газета, после публикации исследования не присутствует код, относящийся напрямую к рассматриваемой модели.
Будучи базовой частью интеллекта, мультимодальное восприятие необходимо для достижения целостности искусственного интеллекта с точки зрения приобретения знаний и привязки к реальному миру. Язык — это не все, что вам нужно, необходимо согласование восприятия с языковыми моделями
— выдержка из исследовательской статьи.
Наглядные примеры из статьи «Kosmos-1» показывают, как модель анализирует изображения и отвечает на вопросы о них, воспринимает текст с изображения, добавляет свои комментарии и проходит визуальный IQ-тест с точностью 22–26 процентов (подробнее об этом ниже).

В то время как СМИ пестрят новостями о больших языковых моделях (LLM), некоторые эксперты выделяют мультимодальный ИИ как потенциальный путь к общему искусственному интеллекту, гипотетической технологии, которая сможет заменить человека в любой интеллектуальной работе.
Что такое искусственный общий интеллект (AGI)
AGI — это заявленная цель OpenAI, ключевого делового партнера Microsoft в области искусственного интеллекта. Однако в данном случае Kosmos-1 — сольный проект Microsoft, созданный без участия OpenAI. Исследователи называют свое творение «мультимодальной моделью большого языка» (MLLM), так как она включает себя принципы обработки естественного языка, подобные тем, которые использует для понимания текста LLM вроде ChatGPT. Говоря проще: чтобы «Kosmos-1» мог принимать входные изображения, исследователи должны сначала преобразовать изображение в специальную серию токенов (представленных текстом), пригодные для понимания LLM. В статье «Kosmos-1», опубликованной исследователями, это описано более подробно.
Для формата ввода мы представляем вводные данные как последовательность, оснащенную специальными токенами. В частности, мы используем и для обозначения начала и конца принцип последовательности. Специальные маркеры указывают на начало и конец встраивания закодированного изображения. Например, «[doc_tag]документ [/doc_tag]» — это текстовый ввод, а «[text_tag] абзац [image] Image.gpg [/image] абзац [/text_tag]» — это чередующийся ввод изображения и текста.
Модуль внедрения используется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем информация отправляется в декодер. Для входных токенов мы используем таблицу поиска, чтобы сопоставить их с необходимой для ответа информацией. Для модальностей непрерывных сигналов (например, изображения и звука) также возможно представить входные данные в виде дискретного кода, а затем рассматривать их как если бы это был иностранный язык
Модуль внедрения используется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем информация отправляется в декодер. Для входных токенов мы используем таблицу поиска, чтобы сопоставить их с необходимой для ответа информацией. Для модальностей непрерывных сигналов (например, изображения и звука) также возможно представить входные данные в виде дискретного кода, а затем рассматривать их как если бы это был иностранный язык
— из статьи «Kosmos-1».
Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая тест на понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, классификацию изображений и многие другие. По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Эффективность прохождения теста на визуальный интеллект
Особый интерес представляет результат Kosmos-1 в тесте Raven's Progressive Reasoning, который измеряет визуальный IQ, представляя последовательность форм и предлагая испытуемому завершить последовательность. Чтобы протестировать «Kosmos-1», исследователи задали ему заполненный тест, с уже заполненными вариантами ответа, и попросили проверить их правильность. Kosmos-1 мог правильно ответить на вопросы из теста Raven только в 22 процентах случаев (в 26 процентах при тонкой настройке). Это ни в коем случае не окончательная победа, и ошибки в методологии могли повлиять на результаты, однако «Kosmos-1» все же превзошел случайный шанс выбора правильного ответа (17 процентов) для теста Raven IQ.

Хотя «Kosmos-1» представляет собой ранние шаги в направлении создания мультимодального ИИ, не сложно представить, что будущие исследования принесут еще более значительные результаты, позволив моделям ИИ воспринимать любые формы медиа и взаимодействовать с ними. В потенциале это значительно расширит возможности помощников на основе искусственного интеллекта. Исследователи говорят, что в будущем они хотели бы увеличить размер модели Kosmos-1, а также интегрировать возможность голосового взаимодействия.
Microsoft заявляет, что планирует сделать Kosmos-1 доступным для разработчиков, хотя на странице GitHub, на которую ссылается газета, после публикации исследования не присутствует код, относящийся напрямую к рассматриваемой модели.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Кто убивает итальянских волков: зоологи были потрясены кадрами с автоматической камеры
Трагический эпизод показал, что некоторые зоологические теории придется кардинально пересмотреть. У серых хищников есть неожиданные враги...
Очередной миф Николая Карамзина полностью развеян российскими археологами
Оказалось, что Иван Грозный не убивал супругу своего младшего брата. Напротив, с княгиней Ульянией Углицкой случалась куда более таинственная и запутанная...
Самая запрещенная русская сказка: почему «Курочку Рябу» не любили ни цари, ни руководители СССР?
Чтобы эту историю можно было рассказывать советским детям, ее сюжет пришлось изменить самым радикальным образом. Но, может быть, это и к лучшему...
Американский «Чернобыль-80»: эта катастрофа едва не изменила всю историю США
Эксперты говорят: лишь счастливая случайность не позволила взорваться заряду в 600 (!) раз мощнее хиросимской бомбы...
80 лет без Звезды Героя: почему офицер, поставивший Знамя Победы, не получил заслуженную награду при жизни?
Только указ Президента России смог исправить одну из самых вопиющих несправедливостей в советской истории...
Гениальное ДНК-«мошенничество»: ученые раскрыли секрет рыбы, которая плевать хотела на главные законы биологии
100 000 лет успешного клонирования: амазонская моллинезия просто... копирует себя. И при этом удивительно успешно ремонтируют поврежденные гены, насмехаясь над...
Почему на Иран обрушился черный дождь и насколько он опасен?
Экологи говорят: агрессивные действия США и Израиля поставили под угрозу здоровье миллионов людей по всей планете...
Каменный топор со дна реки может переписать древнейшую историю Сибири
По словам ученых, получился отличный научный детектив: добыча золота, артефакт бронзового века, забытая цивилизация...
Главный секрет человеческого дыхания: ученые рассказали, почему мы дышим «вахтовым методом»
Эксперты предупреждают: из-за особенности организма многие люди не смогут попасть в космос. Но решение все-таки есть...
Японец 26 лет ждал, пока раскроют убийство его жены
Как новейшие технологии помогли сдвинуть с места нераскрываемое дело...
Японец 26 лет ждал, пока раскроют убийство его жены. Часть 2. Расплата
Как наука отменила срок давности у преступления? И какая тайна осталась не раскрытой?...
43 000 черепков открыли тысячелетние тайны Древнего Египта
Почему глиняная библиотека Атрибиса потрясла весь археологический мир?...