Прощай, «Фотошоп»? Новый ИИ от Google редактирует фото после текстовых запросов
Новый экспериментальный искусственный интеллект (ИИ), разработанный специалистами Google, позволяет редактировать фотографии без специальных навыков. В том числе он умеет удалять водяные знаки. Но инструмент оказался не идеален, сделал вывод эксперт.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
В конечном счёте, если ваш мозг может представить, как выглядит изображение без водяного знака, то и модель ИИ на это способна. Она заполняет пространство водяного знака наиболее правдоподобным образом на основе обучающих данных
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
- Дмитрий Ладыгин
- arstechnica.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Битва под Каневом: почему на 350 лет замолчали сокрушительную победу России?
Неудобная победа, предательство и идеология. Мы бы могли вообще не узнать об этом триумфе русского оружия...
Бомбы с орбиты: почему советская технология, воскрешенная Китаем, встревожила США?
Американцы слишком долго считали свои системы раннего предупреждения лучшими на планете. Теперь......
С Ноева ковчега сняли запрет: что покажут радары на Арарате?
История, которую больше всего высмеивали ученые, неожиданно становится все более реальной...
Дикий народ чучуна: Кто наводил ужас на коренное население Сибири?
Йети? Люди-изгои? Древнее племя? Пока что вопросов больше, чем ответов...
Почему их ДНК не меняется уже 42 000 лет: определен самый древний народ на планете
Три раза предки жителей Океании встречались с исчезнувшими видами людей, и это в корне изменило их гены...
Тайна «косого глаза» Венеры раскрыта: что увидела нейросеть на картинах Боттичелли?
Художник нарисовал пять портретов прекрасной Симонетты Веспуччи. И каждое полотно еще больше подтверждает страшный диагноз...
Мрачный прогноз для США из 1995 года сбылся: в чем великий ученый Саган оказался прав?
Исследователь говорил: все плохо, но еще не все потеряно. Его советы могут реально помочь всему человечеству...
Новая вселенная внутри звезды: почему Эйнштейн мог ошибаться насчет черных дыр
Больше 20 лет эта гипотеза в буквальном смысле раздирает мир науки. Но, возможно, именно она выведет ученых из тупика сингулярности...
Прорыв в астрономии: найти жизнь в космосе будет гораздо проще
Ученых не пугает даже погрешность в 20%. Зато будут просканированы тысячи планет...
Марс под вопросом: что может обнулить иммунитет у космонавтов?
И почему защита организма перестает видеть микробы, выжившие в космосе?...
43 — проклятый возраст Рюриковичей: почему многие князья не переживали этот роковой рубеж?
Генетики говорят: русская династия слишком поздно поняла, что попала в ловушку «чистой» крови...
Снегопады в Антарктиде становятся все аномальнее: и ученые, наконец-то, знают почему?
Ученым придется пересмотреть все климатические модели Шестого континента. Кстати, снега там будет выпадать с каждым годом все больше...
Доказана жизнь на спутнике Юпитера: как же бактериям удалось добраться с Земли на Европу?
За 3,5 миллиарда лет земные бактерии могли долететь до 105 звездных систем. Так что у Европы есть все шансы на «заражение»...
Сначала Стоунхендж был... не каменным: найден прототип легендарного святилища
Доисторическая религия оказалась старше на 500 лет, чем считали ученые. И она играла огромную роль в жизни древних людей...
Бельгийскую разведку снова взломали: хакеры целый год качали оттуда секретные данные
Эксперты говорят: проникновение было замечено совершенно случайно. И это пугает...