• 14 июня, 2022
  • 138

Сбер представил самую большую модель генерации изображений по текстовому описанию на русском языке — Kandinsky

Сбер представил самую большую модель генерации изображений по текстовому описанию на русском языке — Kandinsky

В ноябре была выпущена модель ruDALL-E XL, содержащая 1,3 млрд параметров. Её параметры и код были выложены в открытый доступ, и был разработан сервис генерации изображений. За полгода этим сервисом воспользовались 2 млн уникальных пользователей, которые суммарно сгенерировали 125 млн изображений. Также в ноябре была анонсирована, а в декабе опубликована в маркетплейсе AI Services платформы SberCloud ML Space эксклюзивная модель ruDALL-E XXL c 12 миллиардами параметров.

В этом году команды Sber AI и SberDevices смогли существенно улучшить качество работы этой модели, дообучив её на 179 млн изображений, снабжённых текстовыми описаниями, с помощью платформы SberCloud ML Space и суперкомпьютера Christofari Neo. Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может использовать новый способ повышения разрешения сгенерированных картинок на основе диффузионного процесса для изображений с соотношением сторон 1:1 (помимо стандартного подхода с использованием Real-ESRGAN). Теперь модель значительно лучше справляется с созданием реалистичных изображений, качественно передавая различные текстуры, тени и отражения.

Создание изображений при помощи модели Kandinsky происходит в три этапа. Сначала одна нейросеть (непосредственно Kandinsky), используя текстовое описание, генерирует заданное число изображений. Затем вторая (ruCLIP Large) выбирает наиболее удачные и максимально соответствующие заданному текстовому описанию картинки, а потом третья увеличивает их в размере (доступны как диффузионная модель, так и генеративно-состязательная модель Real-ESRGAN). Итогом работы модели является набор сгенерированных изображений высокого качества. Отличительным преимуществом модели Kandinsky по сравнению с предыдущими версиями является более высокая степень детализации создаваемых изображений.

Модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника».

Александр Ведяхин, первый заместитель Председателя Правления Сбербанка:

«Мы продолжаем развивать нейронные сети, которые следуют принципам трёх М — мультимодальности, мультизадачности и мультиязычности. Kandinsky — это мощный прорыв в этой сфере. Она способна точнее сравнивать и анализировать различные изображения, чтобы создавать настоящие живописные картины. Автоматическая генерация изображений открывает новые возможности для бизнеса, который и станет одним из главных бенефициаров новой технологии».

Похожие статьи

Объявлены имена лауреатов XIX Премии «Финансовая элита России 2024»

Объявлены имена лауреатов XIX Премии «Финансовая элита России 2024»

18 декабря 2024 года в Москве состоялась девятнадцатая церемония вручения наград премии «Финансовая элита России» — одной из старейших ежегодных премий…

Осенние выплаты по ВЗР превысили 14 млн руб.

С сентября по ноябрь 2024 г. Совкомбанк Страхование урегулировала 371 случай по полисам страхования путешественников на сумму 14,1 млн руб.

Специалисты филиала «МАКС-М» в Махачкале напомнили застрахованным о важности…

Страховые представители филиала АО «МАКС-М» Махачкале проводят работу не только по привлечению граждан к прохождению диспансеризации, но и отслеживают качество ее…