• 22 ноября, 2023

Сбер предложил Альянсу в сфере ИИ концепцию независимого бенчмарка MERA для оценки фундаментальных моделей

Концепция нового бенчмарка анонсирована на международной конференции по искусственному интеллекту AI Journey. Он поможет объективно оценивать большие языковые модели, что особенно актуально с ростом их числа и возможностей. Для тестирования моделей часто используют бенчмарки, которые представляют собой набор сложных задач, решение которых отражает способности моделей по различным доменам, задачам или модальностям. Благодаря такой оценке пользователи могут понять, как применять модель, а исследователи — получить объективную информацию для дальнейшего обучения, адаптации или развития языковых моделей.

Современные языковые модели, лежащие в основе таких сервисов, как GigaChat, ChatGPT и других, нуждаются в объективном сравнении и независимой оценке. Командой SberDevices, компании-партнёра Сбера, в коллаборации с партнерами из академического сообщества была разработана методология тестирования. В неё вошли 21 задача в инструктивном формате для тестирования фундаментальных моделей. Тесты охватывают вопросы знаний о мире, логику, причинно-следственные связи, этику искусственного интеллекта, память моделей и многое другое. В создании тестов участвовали команды из Sber AI, Skoltech AI, НИУ ВШЭ. Так появился открытый бенчмарк MERA: Multimodal Evaluation for Russian-language Architectures. Это концепция единого независимого лидерборда с фиксированными верифицированными экспертами задачами и стандартизированными конфигурациями промптов и параметров.

Сергей Марков, руководитель Управления экспериментальных систем машинного обучения дивизиона общих сервисов «Салют» Сбербанка:

«С каждым днем границы применения искусственного интеллекта расширяются. Нам как никогда важно иметь актуальное представление о реальных способностях современных языковых моделей. Признанный всеми крупными участниками индустрии набор тестов — это возможность для индустрии и академического сообщества исследовать способности фундаментальных моделей, объективно оценивать их, развить коллаборации как внутри РФ, так и на международной арене. Мы приглашаем другие компании, в том числе, участников Альянса в сфере ИИ присоединиться к обсуждению методологии и зафиксировать общепринятые отраслевые стандарты».

Похожие статьи

Александр Ведяхин: Портфель финансирования жилой недвижимости Сбера с начала…

Рынок приходит к балансу спроса и предложения за счет снижения активности застройщиков по запуску новых проектов.
Москва и Сбер договорились о создании благоприятных условий для развития предпринимательства и инноваций

Москва и Сбер договорились о создании благоприятных условий для…

На площадке международного саммита Moscow Startup Summit Московский банк Сбербанка и Департамент предпринимательства и инновационного развития города Москвы подписали соглашение о…
Сбер и «Коммерсантъ» заключили стратегическое соглашение о развитии партнерства в цифровой сфере

Сбер и «Коммерсантъ» заключили стратегическое соглашение о развитии партнерства…

В рамках Moscow Startup Summit Московский банк Сбербанка и АО «Коммерсантъ» подписали соглашение о стратегическом сотрудничестве, направленном на развитие совместных проектов в…