• 14 марта, 2025

Учёные Сбера и НИУ ВШЭ оптимизировали обучение AI-моделей для несбалансированных наборов данных

Специалисты Лаборатории искусственного интеллекта Сбербанка и Высшей школы экономики разработали геометрический метод оверсемплинга (расширение данных) Simplicial SMOTE (Synthetic Minority Oversampling Technique). Ученые обобщили традиционный алгоритм SMOTE, применив для семплирования новых синтетических данных вместо двух близких точек симплициальные комплексы, порожденные несколькими обучающими примерами.

Научная статья была принята к публикации сборнике междисциплинарной конференции в области науки о данных, машинного обучения и обнаружения знаний — KDD. Мероприятие пройдет в августе этого года.

Исследование позволило лучше покрыть истинное распределение данных и генерировать синтетические примеры миноритарного класса (с малым числом доступных образцов) ближе к границе решения, смещая её в сторону мажоритарного класса. Такая проблема актуальна для несбалансированных обучающих выборок, где высококачественная классификация AI-моделью затруднена из-за доминирования примеров одного класса над другим.

Метод Simplicial SMOTE особенно важен в задачах, где редкий класс (допустим, случаи мошенничества или заболевания) более значим. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов. Предложенная техника решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

На большом количестве тестовых датасетов исследователи экспериментально показали, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthew) как базового SMOTE, так и его модификаций. Польза отмечена не только для обычно рассматриваемых в статьях по несбалансированному обучению методов ближайшего соседа (K-Nearest Neighbors, KNN), но и для чаще используемых на практике более точных классификаторов, таких как градиентный бустинг.

Результаты исследования могут быть применимы в финансах, медицине, маркетинге и промышленности — везде, где распространены несбалансированные данные. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания. Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline SMOTE, Safe-level SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Разработанный подход может способствовать развитию более точных и надёжных моделей машинного обучения и, следовательно, более высокому качеству аналитики.

Похожие статьи

Нейросеть Kandinsky заняла первое место среди всех open-source решений…

Нейросеть Сбера Kandinsky 5.0 Video получила высокие оценки от международных AI-экспертов. Модель вошла в престижный рейтинг платформы LMArena от исследователей из…

Офис «АльфаСтрахование» признан лучшим среди страховых компаний

Офис «АльфаСтрахование» занял первое место среди страховых компаний в рейтинге «Топ-50 штаб-квартир российских компаний», проведенном FResearch (спецпроекты Forbes) в партнерстве с…

Чай может вызвать тревогу – гастроэнтеролог ВСК подготовила 3…

Чай – один самых популярных напитков россиян. Его пьют после приема пищи, для борьбы с простудой и даже для того, чтобы…