• 7 октября, 2024

GigaChat научился распознавать изображения

Нейросетевая модель GigaChat Pro обрела новую модальность. Теперь в качестве запроса пользователь может отправить иллюстрацию, чтобы сервис использовал её как дополнительный контекст. Модель определит, сколько людей на фото, во что они одеты, даст совет по стилю одежды и многое другое.

Также модель научилась распознавать печатный и рукописный текст, формулы, графики, таблицы и анализировать данные, которые в них содержатся. Например, студенты могут сфотографировать часть учебного материала или конспекта, загрузить изображение и в несколько кликов получить короткое содержание текста, его ключевую тему и сформировать план дальнейшей работы с ним.

Функциональность доступна и бизнес-клиентам через API. Компании могут использовать искусственный интеллект в ещё большем числе сценариев: модерировать и классифицировать отзывы, систематизировать медиаконтент, автоматизировать линию поддержки (когда клиент прикладывает к обращению скрин или фото). Ретейлеры могут загружать изображение товара и просить сервис придумать к нему продающее описание.

Также в четыре раза был увеличен размер контекста как GigaChat Pro, так и версии GigaChat Lite — с 8 тыс. до 32 тыс. токенов. Если раньше в один запрос можно было загрузить объём текста, сопоставимый с 15 страницами A4 (шрифт 14 pt), то теперь максимальный объём запроса вырос до 60 страниц. Кроме того, у моделей повысился уровень математических знаний, а GigaChat Pro научился лучше форматировать текст — расставлять параграфы, заголовки, используя выделения и списки.

Андрей Белевцев, старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка:

«Мультимодальность расширяет способы и сферы применения больших языковых моделей, она же — ключевой тренд развития генеративного искусственного интеллекта. Теперь GigaChat умеет распознавать изображения — и это не просто ещё один важный шаг в развитии нашего сервиса, он открывает широкий спектр новых возможностей для наших пользователей. В том числе появляется много сценариев использования GigaChat API для бизнеса. Кроме того, увеличение размера контекста системы в четыре раза позволит поддерживать более длинные диалоги с пользователями и проще реализовывать кейсы с механикой RAG».

Похожие статьи

Загородная недвижимость стала лидером по темпам прироста ипотечных выдач в апреле – Домклик

Загородная недвижимость стала лидером по темпам прироста ипотечных выдач…

Аналитики Домклик рассказали о распределении ипотечных выдач Сбера между рынками первичного, вторичного и загородного жилья.

GigaChat сдал экзамен по энергетике в МЭИ и готов…

Нейросеть GigaChat успешно сдала экзамен по направлениям «Электроэнергетика» и «Теплоэнергетика» уровня бакалавриата в Московском энергетическом институте на оценку «хорошо».
Интерес к ипотеке по рыночным ставкам год к году вырос почти в 4 раза – Домклик

Интерес к ипотеке по рыночным ставкам год к году…

В апреле 2026 года выдачи ипотеки показали рост, как в помесячной, так и в годовой динамике. Наибольший прирост пришёлся на базовую…