Прощай, «Фотошоп»? Новый ИИ от Google редактирует фото после текстовых запросов
Новый экспериментальный искусственный интеллект (ИИ), разработанный специалистами Google, позволяет редактировать фотографии без специальных навыков. В том числе он умеет удалять водяные знаки. Но инструмент оказался не идеален, сделал вывод эксперт.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
В конечном счёте, если ваш мозг может представить, как выглядит изображение без водяного знака, то и модель ИИ на это способна. Она заполняет пространство водяного знака наиболее правдоподобным образом на основе обучающих данных
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
- Дмитрий Ладыгин
- arstechnica.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Припрятал сокровища, но был убит: историки раскрыли трагическую судьбу владельца богатейшего клада Москвы
Почему наследники так и не нашли это огромное состояние, хотя ходили по нему каждый день?...
Пчелы стремительно исчезают в России: из-за чего так происходит и чем это грозит россиянам?
Почему ученые считают, что государство самоустранилось от решения данной проблемы?...
Еще одно пророчество Жириновского сбывается прямо сейчас. Белые люди едут в Россию
По словам экспертов, на этот раз все очень серьезно. Договариваться о переселенцах приехал Эролл Маск, отец знаменитого миллиардера...
Тайну «проклятия фараонов» раскрыло письмо столетней давности
Открыватель гробницы Тутанхамона, археолог Говард Картер, прямо называл имя человека, который изобрел «сенсацию». В итоге потрясающее научное открытие...
100 000-летняя загадка: ученые назвали предмет, благодаря которому люди сумели заселить всю планету
Американские антропологи не ожидали, что такой простой артефакт окажется настолько универсальным и полезным...
Стало известно, почему Эверест аномально ухудшает здоровье у тысяч альпинистов
Никакой мистики, но очень много криминала. Непальская полиция раскрыла колоссальное преступление, жертвами которого стали 4782 иностранца...
«Боевые роботы» СССР на Зимней войне: как уникальные танки без экипажей вызывали ужас у финнов
Эксперты назвали главные причины, почему прорывной проект Остехбюро был закрыт...
Что не так с отстрелом бакланов на Байкале: почему иркутский биолог раскритиковал планы областной администрации?
Профессор Сергей Пыжьянов предупреждает: ответ, который может дать природа, сведет на нет все усилия человека. В итоге будет только хуже...
Кусочек мха помог раскрыть запутанное дело о разграблении могил
Преступники имели очень сильное алиби, но хлорофилловые часы сдали их с поличным...
На Венере, вероятно, есть жизнь: угадайте, как и откуда она туда попала?
Эксперты оценивают шансы как весьма значительные и достаточные, тем более что условия на соседней планете есть...
Гвоздь в грудь: зачем римляне пронзали своих умерших?
Археологи говорят: мрачный ритуал захватил всю Империю от столицы до окраин. При этом сами люди не видели в нем ничего плохого и считали крайне важным...