• 14 марта, 2025

Учёные Сбера и НИУ ВШЭ оптимизировали обучение AI-моделей для несбалансированных наборов данных

Специалисты Лаборатории искусственного интеллекта Сбербанка и Высшей школы экономики разработали геометрический метод оверсемплинга (расширение данных) Simplicial SMOTE (Synthetic Minority Oversampling Technique). Ученые обобщили традиционный алгоритм SMOTE, применив для семплирования новых синтетических данных вместо двух близких точек симплициальные комплексы, порожденные несколькими обучающими примерами.

Научная статья была принята к публикации сборнике междисциплинарной конференции в области науки о данных, машинного обучения и обнаружения знаний — KDD. Мероприятие пройдет в августе этого года.

Исследование позволило лучше покрыть истинное распределение данных и генерировать синтетические примеры миноритарного класса (с малым числом доступных образцов) ближе к границе решения, смещая её в сторону мажоритарного класса. Такая проблема актуальна для несбалансированных обучающих выборок, где высококачественная классификация AI-моделью затруднена из-за доминирования примеров одного класса над другим.

Метод Simplicial SMOTE особенно важен в задачах, где редкий класс (допустим, случаи мошенничества или заболевания) более значим. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов. Предложенная техника решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

На большом количестве тестовых датасетов исследователи экспериментально показали, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthew) как базового SMOTE, так и его модификаций. Польза отмечена не только для обычно рассматриваемых в статьях по несбалансированному обучению методов ближайшего соседа (K-Nearest Neighbors, KNN), но и для чаще используемых на практике более точных классификаторов, таких как градиентный бустинг.

Результаты исследования могут быть применимы в финансах, медицине, маркетинге и промышленности — везде, где распространены несбалансированные данные. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания. Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline SMOTE, Safe-level SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Разработанный подход может способствовать развитию более точных и надёжных моделей машинного обучения и, следовательно, более высокому качеству аналитики.

Похожие статьи

Успешный апгрейд: Omoda C5 и Haval F7х возглавили список…

Аналитики экосистемы Сбера для автолюбителей изучили, как изменились предпочтения россиян при покупке автомобилей в кредит в третьем квартале 2025 года и…

Россияне выбирают финансовую выгоду: как меняется потребительское поведение

Планирование и поиск выгодных предложений становятся для россиян важной частью повседневной жизни. Каждый второй (51%) опрошенный тщательно подходит к крупным покупкам…
Сбер и Okko продолжают расширять «Границы познания»

Сбер и Okko продолжают расширять «Границы познания»

Сбер и Okko при поддержке Института развития интернета (АНО «ИРИ») представляют второй сезон эксклюзивного научного шоу «Границы познания».