Учёные Сбера и НИУ ВШЭ оптимизировали обучение AI-моделей для несбалансированных наборов данных

Специалисты Лаборатории искусственного интеллекта Сбербанка и Высшей школы экономики разработали геометрический метод оверсемплинга (расширение данных) Simplicial SMOTE (Synthetic Minority Oversampling Technique). Ученые обобщили традиционный алгоритм SMOTE, применив для семплирования новых синтетических данных вместо двух близких точек симплициальные комплексы, порожденные несколькими обучающими примерами.

Научная статья была принята к публикации сборнике междисциплинарной конференции в области науки о данных, машинного обучения и обнаружения знаний — KDD. Мероприятие пройдет в августе этого года.

Исследование позволило лучше покрыть истинное распределение данных и генерировать синтетические примеры миноритарного класса (с малым числом доступных образцов) ближе к границе решения, смещая её в сторону мажоритарного класса. Такая проблема актуальна для несбалансированных обучающих выборок, где высококачественная классификация AI-моделью затруднена из-за доминирования примеров одного класса над другим.

Метод Simplicial SMOTE особенно важен в задачах, где редкий класс (допустим, случаи мошенничества или заболевания) более значим. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов. Предложенная техника решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

На большом количестве тестовых датасетов исследователи экспериментально показали, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthew) как базового SMOTE, так и его модификаций. Польза отмечена не только для обычно рассматриваемых в статьях по несбалансированному обучению методов ближайшего соседа (K-Nearest Neighbors, KNN), но и для чаще используемых на практике более точных классификаторов, таких как градиентный бустинг.

Результаты исследования могут быть применимы в финансах, медицине, маркетинге и промышленности — везде, где распространены несбалансированные данные. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания. Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline SMOTE, Safe-level SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Разработанный подход может способствовать развитию более точных и надёжных моделей машинного обучения и, следовательно, более высокому качеству аналитики.