
Microsoft представил модель искусственного интеллекта, которая понимает содержимое изображений и решает визуальные головоломки
Исследователи из Microsoft представили Kosmos-1, мультимодальную модель, которая, как сообщается, может анализировать изображения на наличие контента, решать визуальные головоломки, выполнять визуальное распознавание текста, проходить визуальные тесты IQ и понимать инструкции на естественном языке. Исследователи считают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, является ключевым шагом к созданию искусственного общего интеллекта (AGI), способного решать общие задачи на уровне человека.
— выдержка из исследовательской статьи.
Наглядные примеры из статьи «Kosmos-1» показывают, как модель анализирует изображения и отвечает на вопросы о них, воспринимает текст с изображения, добавляет свои комментарии и проходит визуальный IQ-тест с точностью 22–26 процентов (подробнее об этом ниже).

В то время как СМИ пестрят новостями о больших языковых моделях (LLM), некоторые эксперты выделяют мультимодальный ИИ как потенциальный путь к общему искусственному интеллекту, гипотетической технологии, которая сможет заменить человека в любой интеллектуальной работе.
AGI — это заявленная цель OpenAI, ключевого делового партнера Microsoft в области искусственного интеллекта. Однако в данном случае Kosmos-1 — сольный проект Microsoft, созданный без участия OpenAI. Исследователи называют свое творение «мультимодальной моделью большого языка» (MLLM), так как она включает себя принципы обработки естественного языка, подобные тем, которые использует для понимания текста LLM вроде ChatGPT. Говоря проще: чтобы «Kosmos-1» мог принимать входные изображения, исследователи должны сначала преобразовать изображение в специальную серию токенов (представленных текстом), пригодные для понимания LLM. В статье «Kosmos-1», опубликованной исследователями, это описано более подробно.
— из статьи «Kosmos-1».
Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая тест на понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, классификацию изображений и многие другие. По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Особый интерес представляет результат Kosmos-1 в тесте Raven's Progressive Reasoning, который измеряет визуальный IQ, представляя последовательность форм и предлагая испытуемому завершить последовательность. Чтобы протестировать «Kosmos-1», исследователи задали ему заполненный тест, с уже заполненными вариантами ответа, и попросили проверить их правильность. Kosmos-1 мог правильно ответить на вопросы из теста Raven только в 22 процентах случаев (в 26 процентах при тонкой настройке). Это ни в коем случае не окончательная победа, и ошибки в методологии могли повлиять на результаты, однако «Kosmos-1» все же превзошел случайный шанс выбора правильного ответа (17 процентов) для теста Raven IQ.

Хотя «Kosmos-1» представляет собой ранние шаги в направлении создания мультимодального ИИ, не сложно представить, что будущие исследования принесут еще более значительные результаты, позволив моделям ИИ воспринимать любые формы медиа и взаимодействовать с ними. В потенциале это значительно расширит возможности помощников на основе искусственного интеллекта. Исследователи говорят, что в будущем они хотели бы увеличить размер модели Kosmos-1, а также интегрировать возможность голосового взаимодействия.
Microsoft заявляет, что планирует сделать Kosmos-1 доступным для разработчиков, хотя на странице GitHub, на которую ссылается газета, после публикации исследования не присутствует код, относящийся напрямую к рассматриваемой модели.
Будучи базовой частью интеллекта, мультимодальное восприятие необходимо для достижения целостности искусственного интеллекта с точки зрения приобретения знаний и привязки к реальному миру. Язык — это не все, что вам нужно, необходимо согласование восприятия с языковыми моделями
— выдержка из исследовательской статьи.
Наглядные примеры из статьи «Kosmos-1» показывают, как модель анализирует изображения и отвечает на вопросы о них, воспринимает текст с изображения, добавляет свои комментарии и проходит визуальный IQ-тест с точностью 22–26 процентов (подробнее об этом ниже).

В то время как СМИ пестрят новостями о больших языковых моделях (LLM), некоторые эксперты выделяют мультимодальный ИИ как потенциальный путь к общему искусственному интеллекту, гипотетической технологии, которая сможет заменить человека в любой интеллектуальной работе.
Что такое искусственный общий интеллект (AGI)
AGI — это заявленная цель OpenAI, ключевого делового партнера Microsoft в области искусственного интеллекта. Однако в данном случае Kosmos-1 — сольный проект Microsoft, созданный без участия OpenAI. Исследователи называют свое творение «мультимодальной моделью большого языка» (MLLM), так как она включает себя принципы обработки естественного языка, подобные тем, которые использует для понимания текста LLM вроде ChatGPT. Говоря проще: чтобы «Kosmos-1» мог принимать входные изображения, исследователи должны сначала преобразовать изображение в специальную серию токенов (представленных текстом), пригодные для понимания LLM. В статье «Kosmos-1», опубликованной исследователями, это описано более подробно.
Для формата ввода мы представляем вводные данные как последовательность, оснащенную специальными токенами. В частности, мы используем и для обозначения начала и конца принцип последовательности. Специальные маркеры указывают на начало и конец встраивания закодированного изображения. Например, «[doc_tag]документ [/doc_tag]» — это текстовый ввод, а «[text_tag] абзац [image] Image.gpg [/image] абзац [/text_tag]» — это чередующийся ввод изображения и текста.
Модуль внедрения используется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем информация отправляется в декодер. Для входных токенов мы используем таблицу поиска, чтобы сопоставить их с необходимой для ответа информацией. Для модальностей непрерывных сигналов (например, изображения и звука) также возможно представить входные данные в виде дискретного кода, а затем рассматривать их как если бы это был иностранный язык
Модуль внедрения используется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем информация отправляется в декодер. Для входных токенов мы используем таблицу поиска, чтобы сопоставить их с необходимой для ответа информацией. Для модальностей непрерывных сигналов (например, изображения и звука) также возможно представить входные данные в виде дискретного кода, а затем рассматривать их как если бы это был иностранный язык
— из статьи «Kosmos-1».
Microsoft обучила Kosmos-1, используя данные из Интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и Common Crawl. После обучения они оценили способности Kosmos-1 в нескольких тестах, включая тест на понимание языка, генерацию языка, классификацию текста без оптического распознавания символов, создание субтитров к изображениям, классификацию изображений и многие другие. По данным Microsoft, во многих из этих тестов Kosmos-1 превзошел современные модели.
Эффективность прохождения теста на визуальный интеллект
Особый интерес представляет результат Kosmos-1 в тесте Raven's Progressive Reasoning, который измеряет визуальный IQ, представляя последовательность форм и предлагая испытуемому завершить последовательность. Чтобы протестировать «Kosmos-1», исследователи задали ему заполненный тест, с уже заполненными вариантами ответа, и попросили проверить их правильность. Kosmos-1 мог правильно ответить на вопросы из теста Raven только в 22 процентах случаев (в 26 процентах при тонкой настройке). Это ни в коем случае не окончательная победа, и ошибки в методологии могли повлиять на результаты, однако «Kosmos-1» все же превзошел случайный шанс выбора правильного ответа (17 процентов) для теста Raven IQ.

Хотя «Kosmos-1» представляет собой ранние шаги в направлении создания мультимодального ИИ, не сложно представить, что будущие исследования принесут еще более значительные результаты, позволив моделям ИИ воспринимать любые формы медиа и взаимодействовать с ними. В потенциале это значительно расширит возможности помощников на основе искусственного интеллекта. Исследователи говорят, что в будущем они хотели бы увеличить размер модели Kosmos-1, а также интегрировать возможность голосового взаимодействия.
Microsoft заявляет, что планирует сделать Kosmos-1 доступным для разработчиков, хотя на странице GitHub, на которую ссылается газета, после публикации исследования не присутствует код, относящийся напрямую к рассматриваемой модели.
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Тайна необъяснимых северных кратеров разгадана спустя 11 лет после появления первого провала на Ямале
Почему российские ученые не рады своему открытию, называя его «русской рулеткой»?...

Генетики вычислили, какую страшную цену заплатили наши предки за высокий интеллект
Новое исследование еще раз доказало, что эволюция требует огромных жертв...

Секретная база в Гренландии, спрятанная 30-метровым слоем льда, угрожает всему миру
Гляциолог Уильям Колган говорит: «Американские военные думали, что это никогда не вскроется, но теперь...»...

Рядом с пирамидами Гизы обнаружены секретные тоннели, ведущие в забытый подземный мир
Быть может, их построили даже не египтяне. Но кто тогда?...

В Антарктиде обнаружен метановый «спящий гигант», который очень быстро просыпается. И это плохая новость
Ученые в тревоге задаются вопросом: означают ли десятки газовых гейзеров под водой, что эффект домино уже запущен?...

Наше тело — это… большой мозг: эксперимент русского ученого может совершить революцию в медицине
Эксперты говорят: «Открытие клеточной памяти — это огромный шаг к медицине, где лечение будет подбираться точно для конкретного человека»...

Почему на космическое ноу-хау «солнечный свет по запросу» ополчились астрономы всего мира?
Американский стартап обещает, что все будет хорошо, но ему никто не верит...

Ученые выяснили: в каком возрасте наш мозг достигает пика своей активности
Почему же 20-30 лет оказались стереотипом, далеким от реальной жизни?...

Турецкие археологи обнаружили затерянный мост, способный переписать всю раннюю историю человечества
Оказалось, что научная сенсация все это время... валялась у ученых буквально под ногами...

Астрофизики Гавайского университета неожиданно разгадали тайну… солнечного дождя
Рассказываем, почему новое открытие важно для каждого жителя Земли...

Как мадагаскарские лемуры ускоряют покорение космоса?
И почему именно эти животные оказались самые ценными для будущего всего человечества?...

В самом большом кратере Луны происходит что-то очень странное
Поэтому астронавты планируют туда заглянуть в самое ближайшее время...