
Прощай, «Фотошоп»? Новый ИИ от Google редактирует фото после текстовых запросов
Новый экспериментальный искусственный интеллект (ИИ), разработанный специалистами Google, позволяет редактировать фотографии без специальных навыков. В том числе он умеет удалять водяные знаки. Но инструмент оказался не идеален, сделал вывод эксперт.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
В конечном счёте, если ваш мозг может представить, как выглядит изображение без водяного знака, то и модель ИИ на это способна. Она заполняет пространство водяного знака наиболее правдоподобным образом на основе обучающих данных
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
- Дмитрий Ладыгин
- arstechnica.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

«Проклятье» марсоходов наконец-то получило научную разгадку
Аппараты постоянно застревали на Марсе из-за того, что инженеры NASA десятилетиями игнорировали один из главных законов Вселенной...

Таинственный 300 000-летний череп из греческой пещеры не принадлежал ни человеку, ни неандертальцу. Но кому тогда?
Ответ подсказал… сталагмит, растущий прямо из костей головы...

Найден крайне жестокий, но очень остроумный способ остановить гигантских жаб в Австралии
«Мы заставим их пожирать друг друга» — сказал профессор Рик Шайн...

Эксперты назвали самых смертоносных животных в Австралии, США и России
И это не те монстры, о которых вы сейчас подумали...

Австралийские ученые предупреждают: Западно-Антарктический ледниковый щит, самый большой на планете, вот-вот рухнет!
Попадут ли российские города в список утонувших, когда Мировой океан поднимется на целых три метра?...

Нападение пчел-убийц неожиданно исцелило смертельно больную женщину
Оказалось, один из компонентов пчелиного яда буквально взрывает болезнетворные бактерии...

Как в Китае: почему мессенджер по паспорту и запреты звонков могут обернуться для россиян кошмаром, а не защитой?
Эксперты говорят: в КНР за людьми следят 900 миллионов камер, а мошенники каждый год крадут сотни миллиардов у простых граждан...

Похоже, поиск внеземных цивилизаций наконец-то сдвинулся с мертвой точки
У астрономов появился действительно рабочий способ «вычислять» инопланетные зонды...

Зомби-пауки массово проникают в дома американцев
Эксперты говорят: таких явлений с каждым годом будет все больше...

Загадочные ямы с отрубленными руками во Франции ставят в тупик археологов
Возможно, ответы на вопросы подскажут зубы и кости победителей и побежденных...

Шумерские мифы о Великом потопе оказались чистой правдой
Ученые доказали: Луна и вода в буквальном смысле породили первую цивилизацию на планете...

Американские эксперты признали: США проигрывают Китаю битву за ИИ
Парадокс ситуации заключается в том, что китайцы победили вовсе не из-за высоких технологий...

Находки в затонувшем 2000 лет назад городе помогли раскрыть тайну легендарного фараона Рамзеса Великого
Археологи говорят: жизнь богатейшего мегаполиса древности закончилась трагическим концом...