Сравнительный анализ методов снижения дисбаланса классов при построении моделей машинного обучения в финансовом секторе
А. Ф. Константинов, Л. П. Дьяконова
Загрузить полный текст
Аннотация: В статье рассматриваются методы улучшения показателей качества моделей машинного обучения, применяемых в финансовом секторе. В связи с тем, что наборы данных, на которых обучаются модели, обладают несбалансированностью классов, предлагается использовать модели, направленные на снижение дисбаланса. В исследовании были проведены эксперименты с применением 9 методов учета несбалансированности классов к трем наборам данных по розничному кредитованию. В качестве базовой использовалась модель градиентного бустинга CatboostClassifier, не учитывающая дисбаланс классов. Проведенные эксперименты показали, что применение метода RandomOverSampler дает существенный прирост показателей качества классификации по сравнению с базовой моделью. Результаты свидетельствуют о перспективности дальнейших исследований методов учета дисбаланса классов при изучении финансовых данных, а также о целесообразности применения рассмотренных методов на практике.
Ключевые слова: финансовые риски, машинное обучение, классификация, дисбаланс классов
Для цитирования. Константинов А. Ф., Дьяконова Л. П. Сравнительный анализ методов снижения дисбаланса классов при построении моделей машинного обучения в финансовом секторе // Известия Кабардино-Балкарского научного центра РАН. 2025. Т. 27. № 1. С. 143–151. DOI: 10.35330/1991-6639-2025-27-1-143-151
Список литературы
- Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. Smote: synthetic minority over-sampling technique. Journal of artificial intelligence research. 2002. Vol. 16. Pp. 321–357. DOI: 10.1613/jair.953
- He H., Bai Y., Garcia E.A., Li S. Adasyn: adaptive synthetic sampling approach for imbalanced learning. In 2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence). 2008. Pp. 1322–1328. DOI: 10.1109/IJCNN.2008.4633969
- Han H., Wang W.-Y., Mao B.-H. Borderline-smote: a new over-sampling method in imbalanced data sets learning. International conference on intelligent computing. 2005. Pp. 878–887. Springer. DOI: 10.1007/11538059_91
- Tomek I. Two modifications of cnn. IEEE Trans. Systems, Man and Cybernetics. 1976.Vol. 6. Pp. 769–772. DOI: 10.1109/TSMC.1976.4309452
- Laurikkala J. Improving identification of difficult small classes by balancing class distribution. In Conference on Artificial Intelligence in Medicine in Europe. 2001. Pp. 63–66. Springer. DOI: 10.1007/3-540-48229-6_9
- Batista G., Prati R.C., Monard M.C. A study of the behavior of several methods for balancing machine learning training data. ACM Sigkdd Explorations Newsletter 2004. Vol. 6. No. 1. Pp. 20–29. DOI: 10.1145/1007730.1007735
- Batista G., Bazzan B., Monard M., Balancing Training Data for Automated Annotation of Keywords: a Case Study. In WOB. 2003. Pp. 10–18. BibTeX key: conf/wob/BatistaBM03
Информация об авторах
Константинов Алексей Федорович, аспирант кафедры информатики, Российский экономический университет им. Г. В. Плеханова;
115054, Россия, Москва, Стремянный переулок, 36;
konstantinovaf@gmail.com, ORCID: https://orcid.org/0009-0000-9591-3301, SPIN-код: 3088-3121
Дьяконова Людмила Павловна, канд. физ.-мат. наук, доцент, кафедра информатики, Российский экономический университет им. Г. В. Плеханова;
115054, Россия, Москва, Стремянный переулок, 36;
Dyakonova.LP@rea.ru, ORCID: https://orcid.org/0000-0001-5229-8070, SPIN-код: 2513-8831