Прощай, «Фотошоп»? Новый ИИ от Google редактирует фото после текстовых запросов
Новый экспериментальный искусственный интеллект (ИИ), разработанный специалистами Google, позволяет редактировать фотографии без специальных навыков. В том числе он умеет удалять водяные знаки. Но инструмент оказался не идеален, сделал вывод эксперт.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
В конечном счёте, если ваш мозг может представить, как выглядит изображение без водяного знака, то и модель ИИ на это способна. Она заполняет пространство водяного знака наиболее правдоподобным образом на основе обучающих данных
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
- Дмитрий Ладыгин
- arstechnica.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас
Еще раз об убийстве Андрея Боголюбского: что рассказали кости погибшего князя?
Профессор судебной медицины поправил историков и выявил неточности древних летописей...
Древнеримский артефакт переписывает историю Америки: Колумб был не первым?
Почему находка из индейской могилы почти 100 лет вызывает ожесточенные споры среди археологов и историков?...
Раскрыта главная тайна антарктического льда: ученые узнали, как и кем была взломана природная защита Шестого континента
Похоже, той Антарктиде, которую мы знаем, приходит конец. Впрочем, это не точно...
Тайна гибели сибирского «Титаника»: почему некоторые детали катастрофы 1921 года неизвестны даже сейчас?
Поразительно, но тогда судьи единогласно оправдали капитана парохода. Так кто же тогда был виновником этого страшного происшествия?...
ФСБ рассекретило часть архивов Александра Вадиса, генерала «Смерш»: как советская контрразведка переиграла немцев на Курской дуге. И не только
Историки говорят: по биографии этого смершевца можно запросто снять несколько остросюжетных боевиков...
Жители Анд переписали свою ДНК: почему горные индейцы пьют ядовитую воду, но чувствуют себя при этом хорошо?
По словам ученых, эволюция сделала красивый и хитрый ход. И это не иммунитет к токсинам, а нечто другое, более интересное...
Ядерный взрыв на Луне: для чего советские ученые хотели провести такой грандиозный эксперимент?
Зачем России атомный реактор на Луне и как он поможет нам добраться до Венеры?...
Почему загадочный объект на Марсе — «копия» древнеегипетской пирамиды?
Что стоит за самой таинственной структурой на Красной планете? Эксперты дают объяснения, но стоит ли им верить?...
Почему эти меры не спасут Антарктиду: пять проектов по спасению ледников оказались провалом
Эксперт жестко проанализировал самые популярные программы по сохранению льда на Шестом континенте. Увы, они оказались невыполнимой фантастикой, причем опасно...
Почему загадочные отметины на камнях в Помпеях десятилетиями ставили в тупик военных экспертов?
Итальянские ученые неожиданно решили одну из самых запутанных загадок римской военной истории. Оказывается, уже тогда стреляли из «пулеметов»...