• 22 ноября, 2023

Высокое искусство вашими руками. Сбер представил новую версию нейросети Kandinsky 3.0

Высокое искусство вашими руками. Сбер представил новую версию нейросети Kandinsky 3.0

Сбер создал новую версию генеративной модели для творчества — Kandinsky 3.0. Усовершенствованная нейросеть представлена на конференции Сбера по искусственному интеллекту и машинному обучению AI Journey, которая проходит с 22 по 24 ноября.

Новая версия в сравнении с предыдущими лучше понимает текстовый запрос пользователя. Нейросеть теперь умеет создавать ещё более фотореалистичные изображения, генерировать полноценные художественные картины и арты со скетчами. Модель работает с запросами из широкого списка тем и способна реализовать любой полёт фантазии.

Kandinsky 3.0 лучше предыдущих версий знает элементы отечественного культурного кода. Так, значительно улучшилось качество генерации российских и советских известных личностей и персонажей, архитектурных достопримечательностей, объектов культуры и элементов народного искусства России, например гжельской росписи. Кроме того, у новой модели усовершенствована функция редактирования изображений и возможность их дорисовки в режиме бесконечного полотна (inpainting и outpainting).

Kandinsky 3.0 создаёт изображения с высоким разрешением — 1024 х 1024 пикселей, — при этом может синтезировать картинки с выбранным соотношением сторон. Для обучения нейросети разработчики использовали обновлённый датасет в размере 1,5 млрд пар «текст — изображение», содержащий данные, которые прошли многоэтапные процедуры фильтрации, что в итоге привело к заметному повышению качества генераций.

Александр Ведяхин, первый заместитель Председателя Правления Сбербанка:

«Технологии искусственного интеллекта могут наделить человека супервозможностями. Kandinsky — один из инструментов, предоставляющих такие возможности. Это удобная, функциональная и бесплатная нейросеть Сбера для творчества. Мы постоянно работаем над её усовершенствованием. Новая версия модели ещё лучше понимает запросы от пользователей, научилась разбираться в тонкостях русской культуры и народного творчества. Пробуйте, творите, создавайте уникальные художественные произведения, которые могут стать подарком или украсят вашу коллекцию».

Пользователи нейросети Kandinsky 3.0 также могут создавать видеоролики по текстовому описанию в режиме анимации. По одному запросу генерируется видео длиной в четыре секунды c выбранным эффектом анимации, с частотой 24 кадра в секунду и разрешением 640 x 640 пикселей. Синтез одной секунды видео в среднем занимает около 20 секунд. Для расширения возможностей базовой модели были реализованы разные виды анимации изображений, что позволило перемещать объекты, приближать и отдалять их, оживлять статику всеми возможными способами. В основе режимов анимации лежит функция перерисовки изображения по текстовому описанию (image2image).

Похожие статьи

Встраивание страховых сервисов в экосистемы — это новые возможности…

Встраивание страховых сервисов в цифровые экосистемы открывает новые перспективы, но требует высокой ответственности за качество и прозрачность клиентского опыта.

«Абсолют Страхование»: цифровое урегулирование убытков как новый стандарт клиентского…

Компания «Абсолют Страхование» продолжает развивать цифровые сервисы и совершенствовать процессы урегулирования убытков, делая акцент на скорости, удобстве и качестве клиентского обслуживания.

Киберпреступники в 2025 году вывели через криптовалюту 295 млрд…

Криптовалюта — основной инструмент вывода за границу похищенных у россиян и отечественного бизнеса денег. Через криптообменники в 2025 году киберпреступники вывели…