Microsoft представил модель искусственного интеллекта, которая понимает содержимое изображений и решает визуальные головоломки
Исследователи из Microsoft представили Kosmos-1, мультимодальную модель, которая, как сообщается, может анализировать изображения на наличие контента, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке. Исследователи считают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию искусственного общего интеллекта (AGI), способного решать общие задачи на уровне человека.
— выдержка из исследовательской статьи.
Наглядные примеры из статьи «Kosmos-1» показывают, как модель анализирует изображения и отвечает на вопросы о них, воспринимает текст с изображения, добавляет свои комментарии и проходит визуальный IQ-тест с точностью 22–26 процентов (подробнее об этом ниже).

В то время как СМИ пестрят новостями о больших языковых моделях (LLM), некоторые эксперты выделяют мультимодальный ИИ как потенциальный путь к общему искусственному интеллекту, гипотетической технологии, которая сможет заменить человека в любой интеллектуальной работе.
AGI — это заявленная цель OpenAI, ключевого делового партнера Microsoft в области искусственного интеллекта. Однако в данном случае Kosmos-1 — сольный проект Microsoft, созданный без участия OpenAI. Исследователи называют свое творение «мультимодальной моделью большого языка» (MLLM), так как она включает себя принципы обработки естественного языка, подобные тем, которые использует для понимания текста LLM вроде ChatGPT. Говоря проще: чтобы «Kosmos-1» мог принимать входные изображения, исследователи должны сначала преобразовать изображение в специальную серию токенов (представленных текстом), пригодные для понимания LLM. В статье «Kosmos-1», опубликованной исследователями, это описано более подробно.
— из статьи «Kosmos-1».
Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая тест на понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, классификацию изображений и многие другие. По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Особый интерес представляет результат Kosmos-1 в тесте Raven's Progressive Reasoning, который измеряет визуальный IQ, представляя последовательность форм и предлагая испытуемому завершить последовательность. Чтобы протестировать «Kosmos-1», исследователи задали ему заполненный тест, с уже заполненными вариантами ответа, и попросили проверить их правильность. Kosmos-1 мог правильно ответить на вопросы из теста Raven только в 22 процентах случаев (в 26 процентах при тонкой настройке). Это ни в коем случае не окончательная победа, и ошибки в методологии могли повлиять на результаты, однако «Kosmos-1» все же превзошел случайный шанс выбора правильного ответа (17 процентов) для теста Raven IQ.

Хотя «Kosmos-1» представляет собой ранние шаги в направлении создания мультимодального ИИ, не сложно представить, что будущие исследования принесут еще более значительные результаты, позволив моделям ИИ воспринимать любые формы медиа и взаимодействовать с ними. В потенциале это значительно расширит возможности помощников на основе искусственного интеллекта. Исследователи говорят, что в будущем они хотели бы увеличить размер модели Kosmos-1, а также интегрировать возможность голосового взаимодействия.
Microsoft заявляет, что планирует сделать Kosmos-1 доступным для разработчиков, хотя на странице GitHub, на которую ссылается газета, после публикации исследования не присутствует код, относящийся напрямую к рассматриваемой модели.
Будучи базовой частью интеллекта, мультимодальное восприятие необходимо для достижения целостности искусственного интеллекта с точки зрения приобретения знаний и привязки к реальному миру. Язык — это не все, что вам нужно, необходимо согласование восприятия с языковыми моделями
— выдержка из исследовательской статьи.
Наглядные примеры из статьи «Kosmos-1» показывают, как модель анализирует изображения и отвечает на вопросы о них, воспринимает текст с изображения, добавляет свои комментарии и проходит визуальный IQ-тест с точностью 22–26 процентов (подробнее об этом ниже).

В то время как СМИ пестрят новостями о больших языковых моделях (LLM), некоторые эксперты выделяют мультимодальный ИИ как потенциальный путь к общему искусственному интеллекту, гипотетической технологии, которая сможет заменить человека в любой интеллектуальной работе.
Что такое искусственный общий интеллект (AGI)
AGI — это заявленная цель OpenAI, ключевого делового партнера Microsoft в области искусственного интеллекта. Однако в данном случае Kosmos-1 — сольный проект Microsoft, созданный без участия OpenAI. Исследователи называют свое творение «мультимодальной моделью большого языка» (MLLM), так как она включает себя принципы обработки естественного языка, подобные тем, которые использует для понимания текста LLM вроде ChatGPT. Говоря проще: чтобы «Kosmos-1» мог принимать входные изображения, исследователи должны сначала преобразовать изображение в специальную серию токенов (представленных текстом), пригодные для понимания LLM. В статье «Kosmos-1», опубликованной исследователями, это описано более подробно.
Для формата ввода мы представляем вводные данные как последовательность, оснащенную специальными токенами. В частности, мы используем и для обозначения начала и конца принцип последовательности. Специальные маркеры указывают на начало и конец встраивания закодированного изображения. Например, «[doc_tag]документ [/doc_tag]» — это текстовый ввод, а «[text_tag] абзац [image] Image.gpg [/image] абзац [/text_tag]» — это чередующийся ввод изображения и текста.
Модуль внедрения используется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем информация отправляется в декодер. Для входных токенов мы используем таблицу поиска, чтобы сопоставить их с необходимой для ответа информацией. Для модальностей непрерывных сигналов (например, изображения и звука) также возможно представить входные данные в виде дискретного кода, а затем рассматривать их как если бы это был иностранный язык
Модуль внедрения используется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем информация отправляется в декодер. Для входных токенов мы используем таблицу поиска, чтобы сопоставить их с необходимой для ответа информацией. Для модальностей непрерывных сигналов (например, изображения и звука) также возможно представить входные данные в виде дискретного кода, а затем рассматривать их как если бы это был иностранный язык
— из статьи «Kosmos-1».
Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая тест на понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, классификацию изображений и многие другие. По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Эффективность прохождения теста на визуальный интеллект
Особый интерес представляет результат Kosmos-1 в тесте Raven's Progressive Reasoning, который измеряет визуальный IQ, представляя последовательность форм и предлагая испытуемому завершить последовательность. Чтобы протестировать «Kosmos-1», исследователи задали ему заполненный тест, с уже заполненными вариантами ответа, и попросили проверить их правильность. Kosmos-1 мог правильно ответить на вопросы из теста Raven только в 22 процентах случаев (в 26 процентах при тонкой настройке). Это ни в коем случае не окончательная победа, и ошибки в методологии могли повлиять на результаты, однако «Kosmos-1» все же превзошел случайный шанс выбора правильного ответа (17 процентов) для теста Raven IQ.

Хотя «Kosmos-1» представляет собой ранние шаги в направлении создания мультимодального ИИ, не сложно представить, что будущие исследования принесут еще более значительные результаты, позволив моделям ИИ воспринимать любые формы медиа и взаимодействовать с ними. В потенциале это значительно расширит возможности помощников на основе искусственного интеллекта. Исследователи говорят, что в будущем они хотели бы увеличить размер модели Kosmos-1, а также интегрировать возможность голосового взаимодействия.
Microsoft заявляет, что планирует сделать Kosmos-1 доступным для разработчиков, хотя на странице GitHub, на которую ссылается газета, после публикации исследования не присутствует код, относящийся напрямую к рассматриваемой модели.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Новое исследование показало: Стоунхендж столетиями «водил за нос». Похоже, историю опять придется переписывать
Оказалось, что сенсация скрывалась в огромном круге, состоящем из загадочных шахт...
Роковая ошибка древних врачей: Почему современные ученые считают, что Александра Македонского похоронили заживо?
Он слышал плач своих полководцев и видел приготовления к бальзамированию, но не мог пошевелиться. Тело великого царя стало его собственным гробом...
Людовик XIV умер совсем не от гангрены: ученые сумели раскрыть истину лишь 310 лет спустя
Эксперты говорят: французский король был обречен. Медикам того времени была совершенно неизвестна его болезнь...
Необъяснимые аномалии в тайге на Дальнем Востоке: читаем походные дневники военного разведчика и писателя Владимира Арсеньева
Часть первая: свет в ночном море, мираж «фата-моргана» и почти моментальное замерзание воды...
Он все слышал, но не мог пошевелиться: Жуткая правда о том, почему тело Александра Македонского не разлагалось
Великий царь стал заложником собственной плоти. Диагноз, который поставили спустя 2300 лет, объясняет все: и «чудо» нетленности, и страшную смерть....
ЦРУ, море в пустыне и нефть: кто и зачем остановил проект Египта на 60 лет?
Часть вторая: Холодная война, 200 ядерных взрывов и 15 миллиардов, которые могут все изменить...
Египет хотел создать МОРЕ в пустыне Сахара: почему проект заморозили на 60 лет?
Часть первая: Реальный шанс спастись от всемирного потопа...
Российский ученый уверен, что максимально приблизился к разгадке тайны шаровой молнии
Похоже, наука ошибалась: это не плазменный сгусток, а «живой кристалл» из частиц-призраков...
Что стоит за таинственными аномалиями в дальневосточной тайге? Продолжаем читать походные дневники военного разведчика и писателя Владимира Арсеньева
Часть вторая: снежная гроза, феномен моретрясения и встреча со «снежным человеком»...
Меньше трех дней до конца света на орбите: почему программа CRASH Clock бьет тревогу?
Сотрудники Маска уверяют, что у них все под контролем. Но эксперты сравнивают орбиту с карточным домиком. Кто же прав?...
Загадочная письменность Б из пещер у Мертвого моря наконец-то расшифрована
Ученые «ломали» древний шифр эпохи Христа более 70 лет, но результат разочаровал многих. Почему?...
Алкогольная цивилизация: древние люди освоили земледелие... ради пива
Ученые давно подозревали это, а новые находки только подлили масла в огонь «пивной» версии...
Встречи с неведомым: завершаем чтение дневников разведчика и писателя Владимира Арсеньева
Часть третья: таинственный огонь в лесу, свет из облаков, призрак в тумане и странный дым на море...