• 14 марта, 2025

Учёные Сбера и НИУ ВШЭ оптимизировали обучение AI-моделей для несбалансированных наборов данных

Специалисты Лаборатории искусственного интеллекта Сбербанка и Высшей школы экономики разработали геометрический метод оверсемплинга (расширение данных) Simplicial SMOTE (Synthetic Minority Oversampling Technique). Ученые обобщили традиционный алгоритм SMOTE, применив для семплирования новых синтетических данных вместо двух близких точек симплициальные комплексы, порожденные несколькими обучающими примерами.

Научная статья была принята к публикации сборнике междисциплинарной конференции в области науки о данных, машинного обучения и обнаружения знаний — KDD. Мероприятие пройдет в августе этого года.

Исследование позволило лучше покрыть истинное распределение данных и генерировать синтетические примеры миноритарного класса (с малым числом доступных образцов) ближе к границе решения, смещая её в сторону мажоритарного класса. Такая проблема актуальна для несбалансированных обучающих выборок, где высококачественная классификация AI-моделью затруднена из-за доминирования примеров одного класса над другим.

Метод Simplicial SMOTE особенно важен в задачах, где редкий класс (допустим, случаи мошенничества или заболевания) более значим. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов. Предложенная техника решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

На большом количестве тестовых датасетов исследователи экспериментально показали, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthew) как базового SMOTE, так и его модификаций. Польза отмечена не только для обычно рассматриваемых в статьях по несбалансированному обучению методов ближайшего соседа (K-Nearest Neighbors, KNN), но и для чаще используемых на практике более точных классификаторов, таких как градиентный бустинг.

Результаты исследования могут быть применимы в финансах, медицине, маркетинге и промышленности — везде, где распространены несбалансированные данные. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания. Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline SMOTE, Safe-level SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Разработанный подход может способствовать развитию более точных и надёжных моделей машинного обучения и, следовательно, более высокому качеству аналитики.

Похожие статьи

17 февраля — Презентация исследования «Серебряный возраст: незаметное большинство»

17 февраля 2026 в 10:00 (Стеклянный зал) состоится пресс-конференция, посвященная исследованию агентства СберМаркетинг на тему: "Серебряный возраст: незаметное большинство".

В Москве прошло экспертное мероприятие премии «Любимый малый бизнес»…

13 февраля в Москве прошло экспертное мероприятие в рамках премии Сбера «Любимый малый бизнес», ставшее ключевым этапом отбора победителей регионального и…

СК «Абсолют Страхование» накануне 14 февраля выяснила, где люди…

Компания «Абсолют Страхование» провела опрос ко Дню всех влюбленных, чтобы узнать, где люди чаще всего встречают свою вторую половинку.