28.2.3 - ИЗВЕСТИЯ КАБАРДИНО-БАЛКАРСКОГО НАУЧНОГО ЦЕНТРА РАН»

Архитектура распределенной системы хранения и обработки больших данных на основе Apache Ozone и Argo Workflows

К. А. Полянцева, А. В. Комлев, М. Г. Городничев

Аннотация. В статье рассматривается архитектура распределенной системы хранения и обработки больших данных, построенная на основе интеграции объектного хранилища Apache Ozone и системы оркестрации вычислительных процессов Argo Workflows.
Цель исследования. Разработка и исследование архитектуры распределенной системы хранения и обработки больших данных, основанной на интеграции Apache Ozone и Argo Workflows, реализующей принцип разделения функций хранения и вычислений, а также оценка эффективности предложенного решения по сравнению с традиционной архитектурой Apache Hadoop.
Методы исследования. Использованы методы системного анализа архитектур больших данных, сравнительного экспериментального тестирования распределенных систем хранения и обработки информации, а также методы математического моделирования для формализации процессов масштабирования ресурсов, времени выполнения вычислений и эффективности хранения данных. Экспериментальная оценка проводилась на кластерах Apache Ozone и Apache Hadoop с использованием Apache Spark для выполнения вычислительных задач.
Результаты. Разработана архитектура распределенной системы, обеспечивающая независимое масштабирование подсистем хранения и вычислений за счет использования объектного хранилища Apache Ozone и оркестрации вычислительных процессов на базе Argo Workflows в контейнерной среде Kubernetes. Предложена методика интеграции компонентов без использования промежуточного S3-шлюза, позволяющая снизить накладные расходы взаимодействия. Проведенные экспериментальные исследования показали сопоставимую производительность предложенного решения с Hadoop-кластером при операциях чтения, записи и обработки данных, а также преимущества в гибкости масштабирования и эффективности использования дискового пространства при применении erasure coding.
Выводы. Результаты исследования подтверждают перспективность использования архитектуры на основе Apache Ozone и Argo Workflows в качестве альтернативы традиционным платформам обработки больших данных. Раздельная архитектура хранения и вычислений позволяет повысить гибкость инфраструктуры, оптимизировать использование ресурсов и снизить затраты на хранение данных при сохранении сопоставимого уровня производительности. Предложенный подход может быть применен при построении корпоративных аналитических платформ, систем обработки больших данных и инфраструктур машинного обучения.

Ключевые слова: распределенные системы хранения данных, большие данные, Apache Ozone, Argo Workflows, Kubernetes, Apache Spark, объектные хранилища, разделение хранения и вычислений, масштабируемость, обработка данных, контейнерные вычисления, отказоустойчивость

Для цитирования. Полянцева К. А., Комлев А. В., Городничев М. Г. Архитектура распределенной системы хранения и обработки больших данных на основе Apache Ozone и Argo Workflows // Известия Кабардино-Балкарского научного центра РАН. 2026. Т. 28. № 2. С. 34–50. DOI: 10.35330/1991-6639-2026-28-2-34-50

Контент доступен под лицензией Creative Commons Attribution 4.0 License

Список литературы

Полянцева К. А. Высоконагруженная платформа для агрегации и анализа неструктурированных данных о состоянии дорожного полотна // Автоматизация в промышленности. 2022. № 5. С. 32–37. DOI: 10.25728/avtprom.2022.05.09
Городничев М. Г., Титов Д. В., Липатова А. Д. О задаче построение независимых архитектур обработки данных в интеллектуальных транспортных системах // Инженерный вестник Дона. 2025. № 11(131). С. 62–92.
Malik V. Hadoop Distributed file system (HDFS) with its architecture. International Journal for Research in Applied Science and Engineering Technology. 2025. Vol. 13. Pp. 6031–6034. DOI: 10.22214/ijraset.2025.71584
Kala Karun A., Chitharanjan K. A review on Hadoop – HDFS infrastructure extensions. 2013 IEEE Conference on Information & Communication Technologies, Thuckalay, India. Pp. 132–137. DOI: 10.1109/CICT.2013.6558077
Zhu Z., Tan L., Li Y., Ji C. PHDFS: Optimizing I/O performance of HDFS in deep learning cloud computing platform. Journal of Systems Architecture. 2020. Vol. 109. Article 101810. DOI: 10.1016/j.sysarc.2020.101810
Иевлев К. О., Городничев М. Г. Сравнительный анализ систем хранения данных HDFS и Apache Ozone // Computational Nanotechnology. 2025. Т. 12. № 1. С. 26–33. DOI: 10.33693/2313-223X-2025-12-1-26-33
Wilkinson S. R., Aloqalaa M., Belhajjame K. et al. Applying the FAIR principles to computational workflows. Scientific Data. 2025. Vol. 12. Article 328. DOI: 10.1038/s41597-025-04451-9
Gustafsson O.J.R., Wilkinson S.R., Bacall F. et al. WorkflowHub: a registry for computational workflows. Scientific Data. 2025. Vol. 12. Article 837. DOI: 10.1038/s41597-025-04786-3
Tourouta E., Gorodnichev M., Polyantseva K., Moseva M. Providing fault tolerance of cluster computing systems based on fault-tolerant dynamic computation planning. Lecture Notes in Information Systems and Organisation: 3rd. Virtual, Online, 2022. Pp. 143–150. DOI: 10.1007/978-3-030-94252-6_10
Kumar B., Verma A., Verma P. Introduction of kubernetes. Modern kubernetes: From core concepts to intelligent autoscaling for cloud applications. Cham: Springer, 2026. Pp. 1–15. (Studies in Autonomic, Data-driven and Industrial Computing). DOI: 10.1007/978-3-032-12972-7_1
Aqasizade H., Ataie E., Bastam M. Kubernetes in action: Exploring the performance of Kubernetes distributions in the cloud. Software: Practice and Experience. 2025. Vol. 55. Pp. 1711–1725. DOI: 10.1002/spe.70000
Lucani D., Feher M. HyRES: A hybrid replication and erasure coding approach to data storage. 2025. 14 p. arXiv: 2511.00896. URL: https://arxiv.org/abs/2511.00896 (аccessed: 22/02/2026)
Shen Z., Cai Y., Cheng K., Lee P. P. C., Li X., Hu Y., Shu J. A survey of the past, present, and future of erasure coding for storage systems. ACM Transactions on Storage. 2025. Vol. 21. No. 1. Article 4. 39 p. DOI: 10.1145/3708994
Ibrahim S., Darrous J. Erasure coding aware block placement for data-intensive applications. ACM SIGOPS Operating Systems Review. 2025. Vol. 59. No. 1. Pp. 62–69. DOI: 10.1145/3759441.3759451

Информация об авторах

Полянцева Ксения Андреевна, канд. техн. наук, доцент кафедры «Интеллектуальный анализ данных», Московский технический университет связи и информатики;
111024, Россия, Москва, ул. Авиамоторная, 8А;
k.a.poliantseva@mtuci.ru, ORCID: https://orcid.org/0000-0002-7102-4208, SPIN-код: 8112-8560
Комлев Артем Владимирович, студент, Московский технический университет связи и информатики;
111024, Россия, Москва, ул. Авиамоторная, 8А;
komlev1257@gmail.com
Городничев Михаил Геннадьевич, канд. техн. наук, доцент, декан факультета «Информационные технологии», Московский технический университет связи и информатики;
111024, Россия, Москва, ул. Авиамоторная, 8А;
m.g.gorodnichev@mtuci.ru, ORCID: https://orcid.org/0000-0003-1739-9831, SPIN-код: 4576-9642

Финансирование

Исследование проведено без спонсорской поддержки.

Реферативные базы

Архитектура распределенной системы хранения и обработки больших данных на основе Apache Ozone и Argo Workflows