
Прощай, «Фотошоп»? Новый ИИ от Google редактирует фото после текстовых запросов
Новый экспериментальный искусственный интеллект (ИИ), разработанный специалистами Google, позволяет редактировать фотографии без специальных навыков. В том числе он умеет удалять водяные знаки. Но инструмент оказался не идеален, сделал вывод эксперт.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
Новая модель ИИ может генерировать или редактировать изображения так же легко, как и создавать текст путём диалога с чат-ботом. Результаты не идеальны, но вполне возможно, что в ближайшем будущем любой желающий сможет легко и просто работать с изображениями.
Google расширил доступ к встроенным возможностям создания изображений в Gemini 2.0 Flash, сделав экспериментальную функцию доступной пользователям Google AI Studio. Мультимодальная технология, которая с декабря была доступна только тестировщикам, объединила в одной модели ИИ возможности обработки и текста, и изображений.
Поясним, что мультимодальные изображения в контексте генерации с использованием ИИ — это изображения, которые создаются на основе нескольких типов вводных данных (модальностей): текста, звука, других изображений или даже контента из разных источников. Мультимодальность позволяет ИИ-моделям генерировать более разнообразные и богатые по содержанию результаты.
Новую модель под названием «Gemini 2.0 Flash (генерация изображений) экспериментальная» представили на прошлой неделе, но поначалу она осталась почти незамеченной. Но затем за несколько дней она привлекала всё больше и больше внимания благодаря своей способности удалять водяные знаки с изображений. Впрочем, это происходит с так называемыми артефактами (погрешностями) и снижением качества изображения, предупредил Бендж Эдвардс, обозреватель издания Ars Technica.
Удаление водяных знаков — не единственная способность программы. Gemini 2.0 Flash может добавлять и удалять объекты, изменять фон, освещение и угол обзора, увеличивать или уменьшать масштаб и выполнять другие преобразования — и всё это с разной степенью успеха в зависимости от тематики и стиля картинок.
Чтобы добиться такого прогресса, специалисты Google обучали Gemini 2.0 на большом наборе данных из изображений и текстов. При этом использовалась токенизация изображений — это процесс преобразования картинок в числовые данные (например, пиксели или векторы), которые могут быть обработаны нейронными сетями. «Знания» модели об изображениях занимают то же пространство нейронной сети, что и её знания из текстовых источников. Поэтому она может напрямую выводить токены изображений, которые преобразуются обратно в картинки и предстают перед пользователем.
Генерация изображений в чате с ИИ сама по себе не является чем-то новым. Так, в сентябре 2024 года компания OpenAI интегрировала свой генератор изображений DALL-E 3 в ChatGPT, и другие технологические компании (например, xAI) последовали её примеру. Но до сих пор каждый из этих чат-помощников с ИИ использовал отдельную модель искусственного интеллекта. Это или ИИ на основе диффузии, которая использует другой принцип синтеза, чем большие языковые модели (LLM) для создания изображений. А новый Gemini 2.0 Flash — это и большая языковая модель (LLM), и генератор изображений на основе ИИ в одной системе.
Интересно, что GPT-4o от OpenAI также способен выводить изображения по запросу, но эта компания до сих пор не выпустила модель, способную выводить мультимодальные изображения.
Итак, что же умеет Gemini 2.0 Flash? В частности, его поддержка диалогового редактирования изображений позволяет пользователям итеративно улучшать картинки с помощью сообщений на естественном языке путём нескольких последовательных запросов. Можно переписываться с ним и сообщать, что хочется добавить, удалить или изменить.
В ходе тестов Бендж Эдвардс поставил перед Gemini Flash 2.0 ряд неформальных тестов на редактирование изображений с помощью ИИ. Например, он удалял кролика и курицу с изображений, добавлял в картинки синтезированные объекты (например, НЛО на иллюстрации выше) и так далее.
Gemini также может преобразовывать изображение новыми способами, например, «уменьшая масштаб», чтобы поместить объект в вымышленную обстановку.
И да, можно удалять водяные знаки. Эдвардс попробовал удалить водяной знак со снимка, скачанного из фотобанка Getty Images, и это сработало. Однако получившееся было далеко от оригинала по разрешению и чёткости деталей.
В конечном счёте, если ваш мозг может представить, как выглядит изображение без водяного знака, то и модель ИИ на это способна. Она заполняет пространство водяного знака наиболее правдоподобным образом на основе обучающих данных
— Эдвардс.
В целом, изображения получались не слишком качественными и детализированными, но их и не пытались редактировать, а только вводили текстовые запросы. Оговоримся, что ныне и Adobe Photoshop позволяет пользователям редактировать изображения с помощью ИИ-синтеза на основе письменных запросов с помощью «генеративного заполнения». Можно предположить, что в будущем компания Adobe добавит более удобный диалоговый процесс редактирования изображений с помощью ИИ, подобный новинке от Google.
Несмотря на недостатки Gemini 2.0 Flash, появление настоящего мультимодального вывода изображений кажется важным этапом в истории ИИ, подытожил свой обзор Бендж Эдвардс.
- Дмитрий Ладыгин
- arstechnica.com
Наши новостные каналы
Подписывайтесь и будьте в курсе свежих новостей и важнейших событиях дня.
Рекомендуем для вас

Это была самая позорная и страшная из всех видов казней
Воинов империи Хань обнаружили расчлененными в братской могиле 2000-летней давности на территории Монголии....

Тройной ядовитый укус: мутация смертельной змеи из Австралии может переписать правила эволюции?
Она впрыскивает двойную дозу яда за 0,15 секунды. Поэтому ее боятся даже герпетологи....

Они свели её с ума: врачи, сами того не зная, засняли в мозгу червей
Странная пациентка ела, чего не следовало....

От таблеток к биопринтерам: наука смогла решить одну из главных мужских проблем
Импланты превратили кабанов и кроликов в супермачо. Скоро очередь людей?...

Что скрывает самая глубокая точка Средиземноморья?
Бездна Калипсо оказалась… жуткой свалкой....

Ровер NASA стреляет лазером по марсианскому камню и раскрывает древнюю тайну
Правда, от этого вопросов стало еще больше....

Изучая мадагаскарских лемуров, ученые нашли ключ к вечной молодости?
Оказалось, что во время сна зверьки «чинят» свои клетки. Осталось включить этот механизм у людей....

Кошки добрались до Китая по Великому шёлковому пути
Генетическое исследование показало, это произошло в 600 году нашей эры....

Любят бездыханных: зачем и как синеполосые осьминоги парализуют своих самок
Ответ и на поверхности, и в глубине инстинктов....

Ушел из жизни обезьяний Эйнштейн, бонобо Канзи
Он перевернул науку, показал, что язык — это не только слова, и научил, что значит быть другом....

Как китовая моча приносит пользу океану
Морские великаны доставляют к тропическим побережьям 4000 тонн азота в год....

Новосибирские ученые доказали: крошечные частицы пластика разрушают память и ускоряют старение
Российские исследователи нашли микропластик везде: в крови, мозге и даже в сердце....

Как похитителям идей помогает невнимательность гениев
Затем плагиаторы процветают....

Прощай, «Фотошоп»? Новый ИИ от Google редактирует фото после текстовых запросов
Ещё один шаг в развитии генеративных технологий....

Новая батарея для электромобилей заряжается за 5 минут
Это почти как залить бензин....

Конкурент Starlink: китайский SpaceSail ускоряет развёртывание спутников
Стартовала гонка в сфере космической связи....