Альянс в сфере ИИ совместно со Сбером запускает бенчмарки для оценки ML-моделей в медицине

Альянс в сфере искусственного интеллекта совместно с Лабораторией искусственного интеллекта Сбербанка разместил на своей платформе задачи и датасеты для оценки ИИ-решений, применяемых в здравоохранении.

На сайте ассоциации уже доступны две задачи по проверке эффективности моделей, использующих машинное обучение для автоматической обработки естественного языка. Это задачи на логику и знания, вопросно-ответное моделирование и понимание смысла медицинского текста. Еще один бенчмарк предназначен для моделей, нацеленных на поиск патологий в ЭКГ сигналах.

Задача RuMedNLI позволяет оценить, насколько хорошо большие языковые модели определяют логическую связь между медицинскими текстами. Модель должна определить, следует ли второй текст из начального утверждения, противоречит ему или не предоставляет достаточно информации для логического вывода.

С помощью задачи RuMedDaNet можно протестировать языковые модели на понимание медицинских текстов, задавая вопросы на основе предоставленного фрагмента текста. Модель должна ответить “да” или “нет”, чтобы продемонстрировать знания в различных областях медицины.

Задача ECG2Pathology проверяет точность, с которой та или иная модель на основе машинного обучения способна справляться с обработкой медицинских сигналов. По предложенному ЭКГ сигналу модель должна предсказать список обнаруженных сердечных заболеваний из 75 возможных патологий.

В разделе «Здравоохранение» платформы Альянса любой желающий может бесплатно скачать необходимые для работы данные. Зарегистрированным пользователям доступно участие в бенчмарках – загруженные модели проходят скоринг, и его результаты отображаются в открытом лидерборде.

В создании бенчмарков принимали участие как лидеры IT-сообщества, так и крупнейшие профессионалы из области медицины, обмен экспертизой активно происходит на площадке Отраслевого клуба Альянса «ИИ в здравоохранении», в который уже вошли 25 ведущих медицинских центров России и разработчиков ИИ-решений.

Павел Блинов, Исполнительный директор по исследованию данных, Лаборатория искусственного интеллекта Сбербанка:

«Дальнейшее развитие и более широкое внедрение ИИ в медицине невозможно без специализированных данных для обучения и тестирования моделей. Бенчмарки Альянса призваны помочь разработчикам сравнить ML-модели в равных условиях и оценить, насколько предлагаемые решения отвечают требованиям рынка. Приглашаем всех желающих к участию в этом проекте, это позволит российским медицинским учреждениям получить самые точные и эффективные медицинские решения на основе ИИ».

Анна Мещерякова, генеральный директор компании «Платформа Третье Мнение», сопредседатель Отраслевого клуба «ИИ в здравоохранении»:

«В медицине от качества принимаемых решений зависит здоровье и жизнь человека, поэтому здесь особенно важно использовать механизмы объективной оценки ИИ-сервисов. В мировой практике есть влиятельные бенчмарки, которые дают рынку точное представление о возможностях ML-моделей. У российского заказчика также должна быть возможность первичного отбора и квалификации решений, которая подходит для сервисов анализа данных вне зависимости от их типа: изображений, текстовых или звуковых файлов, видеопотока. Первично отобранные решения в дальнейшем должны будут себя проявить и показать стабильность в реальной клинической практике на больших потоках данных».