Возможности Kandinsky 2.1:
• умеет рисовать в различных стилях;
• может смешивать несколько рисунков;
• изменяет рисунки по текстовому описанию;
• генерирует изображения, похожие на заданное;
• Дорисовывает недостающие части картинки;
• формирует изображения в режиме бесконечного полотна (inpainting/outpainting);
• понимает запросы на 101 языке.
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices. Sber AI — подразделение Сбера, отвечающее за развитие технологий искусственного интеллекта (ИИ) и их внедрение в различные сферы жизни и бизнеса.
В обновлённой нейросети кардинально улучшили генерацию изображений в высоком разрешении: лица, сложные объекты и так далее. Благодаря этому новая модель содержит 3,3 млрд параметров вместо 2 млрд в Kandinsky 2.0.
Кроме того, Kandinsky 2.1 использует не только закодированное текстовое описание, но и специальное представление изображения моделью CLIP. В таком виде нейросеть формирует представление картинки на основе текстовой информации и подаёт его на вход основной генеративной модели.
Модель умеет визуализировать любой контент и может применяться в различных отраслях.
По сути, это ещё один важный шаг к AGI — сильному искусственному интеллекту. Думаю, у каждого найдётся задача для Kandinsky 2.1, и поэтому улучшенная модель, как и её предыдущая версия, находится в открытом доступе: протестировать её может любой желающий, причём бесплатно
— Александр Ведяхин, первый зампредседателя правления Сбербанка.

Наша редакция протестировала обновленную нейросеть и мы считаем, что она, мягко говоря, далека от совершенства. В отличие от большинства нейросетей, Kandinsky так и не научили считать пальцы. На иллюстрации сгенерированное по запросу «В России обновили компьютерного „художника“ Kandinsky» изображение.
Оценить возможности нейросети можно, в том числе, на промостранице модели, в мобильном приложении Салют и на платформе ML Space в хабе предобученных моделей и датасетов DataHub. Модель также доступна для использования на платформе Fusion Brain и в телеграм-боте.