<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root>
<article xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:ali="http://www.niso.org/schemas/ali/1.0/" article-type="research-article" dtd-version="1.2" xml:lang="ru"><front><journal-meta><journal-id journal-id-type="publisher-id">News of the Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences</journal-id><journal-title-group><journal-title xml:lang="en">News of the Kabardino-Balkarian Scientific Center of the Russian Academy of Sciences</journal-title><trans-title-group xml:lang="ru"><trans-title>Известия Кабардино-Балкарского научного центра РАН</trans-title></trans-title-group></journal-title-group><issn publication-format="print">1991-6639</issn><issn publication-format="electronic">2949-1940</issn></journal-meta><article-meta><article-id pub-id-type="publisher-id">331580</article-id><article-id pub-id-type="doi">10.35330/1991-6639-2025-27-3-39-54</article-id><article-id pub-id-type="edn">DHTLAK</article-id><article-categories><subj-group subj-group-type="toc-heading" xml:lang="en"><subject>System analysis, management and information processing</subject></subj-group><subj-group subj-group-type="toc-heading" xml:lang="ru"><subject>Системный анализ, управление и обработка информации</subject></subj-group><subj-group subj-group-type="article-type"><subject>Research Article</subject></subj-group></article-categories><title-group><article-title xml:lang="en">Development of an unmanned vehicle course control system based on reinforcement learning</article-title><trans-title-group xml:lang="ru"><trans-title>Разработка системы управления курсом беспилотного автомобиля на основе обучения с подкреплением</trans-title></trans-title-group></title-group><contrib-group><contrib contrib-type="author"><contrib-id contrib-id-type="orcid">https://orcid.org/0009-0006-1467-5043</contrib-id><contrib-id contrib-id-type="spin">5174-7378</contrib-id><name-alternatives><name xml:lang="ru"><surname>Ушаков</surname><given-names>А. Е.</given-names></name><name xml:lang="en"><surname>Ushakov</surname><given-names>A. E.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Postgraduate student, Research Engineer, Department of Robotics and Mechatronics</p></bio><bio xml:lang="ru"><p>аспирант, инженер-исследователь кафедры «Роботехника и мехатроника»</p></bio><email>ushakov_ae@internet.ru</email><xref ref-type="aff" rid="aff1"/></contrib><contrib contrib-type="author"><contrib-id contrib-id-type="orcid">https://orcid.org/0009-0007-3443-0593</contrib-id><contrib-id contrib-id-type="spin">4389-1120</contrib-id><name-alternatives><name xml:lang="en"><surname>Stebulyanin</surname><given-names>M. M.</given-names></name><name xml:lang="ru"><surname>Стебулянин</surname><given-names>М. М.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="ru"><p>д-р техн. наук, профессор, заведующий кафедрой «Роботехника и мехатроника»</p></bio><bio xml:lang="en"><p>Doctor of Technical Sciences, Professor, Head of the Department of Robotics and Mechatronics</p></bio><email>mmsteb@rambler.ru</email></contrib><contrib contrib-type="author"><contrib-id contrib-id-type="orcid">https://orcid.org/0000-0003-2352-992X</contrib-id><contrib-id contrib-id-type="spin">1734-9056</contrib-id><name-alternatives><name xml:lang="en"><surname>Shereuzhev</surname><given-names>M. А.</given-names></name><name xml:lang="ru"><surname>Шереужев</surname><given-names>М. А.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="en"><p>Candidate of Engineering Sciences, Associate Professor at the Department of Robotics and Mechatronics</p></bio><bio xml:lang="ru"><p>кан. тех. наук, доцент кафедры «Роботехника и мехатроника»</p></bio><email>shereuzhev@bmstu.ru</email><xref ref-type="aff" rid="aff2"/></contrib><contrib contrib-type="author"><contrib-id contrib-id-type="orcid">https://orcid.org/0009-0000-2639-9521</contrib-id><contrib-id contrib-id-type="spin">7738-5724</contrib-id><name-alternatives><name xml:lang="en"><surname>Devyatkin</surname><given-names>F. V.</given-names></name><name xml:lang="ru"><surname>Девяткин</surname><given-names>Ф. В.</given-names></name></name-alternatives><address><country country="RU">Russian Federation</country></address><bio xml:lang="ru"><p>аспирант кафедры СМ7 «Робототехнические системы и мехатроника»; инженер</p></bio><bio xml:lang="en"><p>Postgraduate student at the Department of ME7 “Robotic Systems and Mechatronics”; Engineer</p></bio><email>feodor-dev@ya.ru</email><xref ref-type="aff" rid="aff3"/><xref ref-type="aff" rid="aff1"/></contrib></contrib-group><aff-alternatives id="aff1"><aff><institution xml:lang="ru">Московский государственный технологический университет «СТАНКИН»</institution></aff><aff><institution xml:lang="en">Moscow State University of Technology “STANKIN”</institution></aff></aff-alternatives><aff-alternatives id="aff2"><aff><institution xml:lang="ru">Московский государственный технологический университет «СТАНКИН</institution></aff><aff><institution xml:lang="en">Moscow State University of Technology “STANKIN”</institution></aff></aff-alternatives><aff-alternatives id="aff3"><aff><institution xml:lang="ru">Московский государственный технический университет имени Н. Э. Баумана</institution></aff><aff><institution xml:lang="en">The Bauman Moscow State Technical University</institution></aff></aff-alternatives><aff-alternatives id="aff4"><aff><institution xml:lang="ru">Московский государственный технологический университет «СТАНКИН»</institution></aff><aff><institution xml:lang="en">Moscow State University of Technology “STANKIN”</institution></aff></aff-alternatives><content-language>ru</content-language><pub-date date-type="pub" iso-8601-date="2025-10-21" publication-format="electronic"><day>21</day><month>10</month><year>2025</year></pub-date><pub-date date-type="collection"><year>2025</year></pub-date><volume>27</volume><issue>3</issue><issue-title xml:lang="en">VOL 27, NO3 (2025)</issue-title><issue-title xml:lang="ru">ТОМ 27, №3 (2025)</issue-title><fpage>39</fpage><lpage>54</lpage><history><date date-type="received" iso-8601-date="2025-10-17"><day>17</day><month>10</month><year>2025</year></date><date date-type="accepted" iso-8601-date="2025-10-17"><day>17</day><month>10</month><year>2025</year></date></history><permissions><copyright-statement xml:lang="ru">Copyright ©; 2025, Ушаков А.Е., Стебулянин М.М., Шереужев М.А., Девяткин Ф.В.</copyright-statement><copyright-statement xml:lang="en">Copyright ©; 2025, Ushakov A.E., Stebulyanin M.M., Shereuzhev M.А., Devyatkin F.V.</copyright-statement><copyright-year>2025</copyright-year><copyright-holder xml:lang="ru">Ушаков А.Е., Стебулянин М.М., Шереужев М.А., Девяткин Ф.В.</copyright-holder><copyright-holder xml:lang="en">Ushakov A.E., Stebulyanin M.M., Shereuzhev M.А., Devyatkin F.V.</copyright-holder><ali:free_to_read xmlns:ali="http://www.niso.org/schemas/ali/1.0/"/><license><ali:license_ref xmlns:ali="http://www.niso.org/schemas/ali/1.0/">https://creativecommons.org/licenses/by/4.0</ali:license_ref></license></permissions><self-uri xlink:href="https://journals.rcsi.science/1991-6639/article/view/331580">https://journals.rcsi.science/1991-6639/article/view/331580</self-uri><abstract xml:lang="en"><p>At present, there is a growing development of autonomous transportation, driven by the need to improve road safety, reduce collisions, and enhance the efficiency of logistics operations. This trend is also influenced by increasing complexity in road conditions and challenges related to vehicle navigation and control, which make traditional control algorithms insufficient in terms of quality and effectiveness.<bold> </bold></p> <p><bold>Aim</bold>. The objective of this research is to develop an intelligent system that enables an autonomous vehicle to independently control its course. The autonomous agent (a vehicle model) learns to navigate and follow a predefined trajectory using reinforcement learning through interaction with a simulation environment, based on the Actor-Critic method.<bold> </bold></p> <p><bold>Materials and Methods</bold>. In this work, the Stable-Baselines 3 (SB3) library built on the PyTorch framework was used to implement and train the reinforcement learning model. The DonkeyCar simulator served as the training environment. To improve the speed and efficiency of training, a denoising autoencoder algorithm was applied to extract the region of interest (ROI).<bold> </bold></p> <p><bold>Results</bold>. A series of comparative experiments was conducted to evaluate the impact of various parameters on training efficiency – such as speed limits, steering angle constraints, allowable deviation width from the lane center, movement continuity, discount factor, and frame rendering rate.<bold> </bold></p> <p><bold>Conclusion</bold>. The results of the study demonstrate the potential of reinforcement learning in the field of autonomous transport, while also highlighting the need for further training on real-world data, the prospects for scaling the approach to different classes of vehicles, and limitations related to computational resources and the need for safe behavior verification.<bold> </bold></p></abstract><trans-abstract xml:lang="ru"><p>Рост развития автономного транспорта связан с повышением безопасности на дорогах, снижением столкновений и повышением эффективности логистических операций. На безопасность также влияет такой фактор, как усложнение дорожных условий и задач, связанных с навигацией и управлением автомобиля, и поэтому традиционные алгоритмы управления оказываются недостаточно качественными и эффективными.</p> <p><bold>Цель исследования</bold> – разработка интеллектуальной системы, которая позволяет автономному транспортному средству самостоятельно управлять курсом движения автономного агента (модель автомобиля), который обучается навигации и следованию по заданному курсу с помощью обучения с подкреплением на основе взаимодействия с имитационной средой методом актер-критик.</p> <p><bold>Материалы и методы</bold>. В данной работе для реализации и обучения модели с подкреплением использовалась библиотека Stable-Baselines3 (SB3), построенная на фреймворке PyTorch. В качестве среды обучения использовался симулятор DonkayCar. Для повышения скорости и эффективности обучения был применен алгоритм шумоподавляющего автокодера для выделения зоны интереса.</p> <p><bold>Результаты</bold>. В рамках исследования была проведена серия сравнительных тестов, направленных на оценку влияния различных параметров эффективности обучения модели – ограничение скорости, ограничение угла поворота колес, ширины допустимого отклонения, непрерывности движения, коэффициента дисконтирования, частоты отрисовки кадров.</p> <p><bold>Выводы</bold>. Результаты исследования позволяют сделать выводы о потенциале использования обучения с подкреплением в сфере автономного транспорта, включая необходимость дообучения модели на реальных данных, перспективы масштабирования на транспортные средства различного класса, ограничения, связанные с вычислительными ресурсами и необходимостью безопасной верификации поведения.</p></trans-abstract><kwd-group xml:lang="ru"><kwd>обучение с подкреплением</kwd><kwd>беспилотный автомобиль</kwd><kwd>Q-learning</kwd><kwd>DQN (Deep Q-Network)</kwd><kwd>актер-критик</kwd><kwd>имитационное моделирование</kwd><kwd>интеллектуальная система</kwd><kwd>симуляционная среда</kwd><kwd>устойчивость обучения</kwd></kwd-group><kwd-group xml:lang="en"><kwd>reinforcement learning</kwd><kwd>unmanned vehicle</kwd><kwd>Q-learning</kwd><kwd>DQN (Deep Q-Network)</kwd><kwd>actor-critic</kwd><kwd>simulation modeling</kwd><kwd>intelligent system</kwd><kwd>simulation environment</kwd><kwd>training stability</kwd></kwd-group><funding-group/></article-meta></front><body></body><back><ref-list><ref id="B1"><label>1.</label><citation-alternatives><mixed-citation xml:lang="en">Syrkin I.S., Dubinkin D.M., Yunusov I.F., Ushakov A.E. Control systems of autonomous mining dump trucks. Young Russia: Proceedings of the XIV All-Russian Scientific and Practical Conference with International Participation, Kemerovo, April 19–21, 2022. Kemerovo: T.F. Gorbachev Kuzbass State Technical University, 2022. Pp. 420071–420078. EDN: CXHGOK. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Сыркин И. С., Дубинкин Д. М., Юнусов И. Ф., Ушаков А. Е. Системы управления автономного карьерного самосвала // Россия молодая: сб. материалов XIV Всероссийской науч.-практ. конф. с междунар. участием, Кемерово, 19–21 апр. 2022 г. Кемерово: Кузбасский гос. техн. ун-т им. Т. Ф. Горбачева, 2022. С. 420071–420078. EDN: CXHGOK</mixed-citation></citation-alternatives></ref><ref id="B2"><label>2.</label><mixed-citation>Toromanoff M., Wirbel E., Moutarde F. End-to-end model-free reinforcement learning for urban driving using implicit affordances. IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2020. С. 7151–7160. DOI: 10.1109/CVPR42600.2020.00718</mixed-citation></ref><ref id="B3"><label>3.</label><mixed-citation>Sauer A., Savinov N., Geiger A. Conditional affordance learning for driving in urban environments. Proceedings of the Conference on Robot Learning (CoRL). 2018. DOI: 10.48550/arXiv.1806.06498</mixed-citation></ref><ref id="B4"><label>4.</label><citation-alternatives><mixed-citation xml:lang="en">Shereuzhev M.A., U Gо, Serebrenny V.V. Modification of a deep learning algorithm for the distribution of functions and tasks between a robotic system and a human under conditions of uncertainty and environmental variability. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. P. 208–218. DOI: 10.35330/1991-6639-2024-26-6-208-218. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Шереужев М. А., У Го, Серебренный В. В. Модификация алгоритма глубокого обучения для распределения функций и задач между робототехническим комплексом и человеком в условиях неопределенности и переменности окружающей среды // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 208–218. DOI: 10.35330/1991-6639-2024-26-6-208-218.</mixed-citation></citation-alternatives></ref><ref id="B5"><label>5.</label><mixed-citation>Tampuu A., Semikin M., Muhammad N. et al. Survey of end-to-end driving: Architectures and training methods: arXiv preprint arXiv:2003.06404. 2020.</mixed-citation></ref><ref id="B6"><label>6.</label><mixed-citation>Lyutikova L.A. Application of a machine learning method for the analysis of incomplete data. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. Pp. 139–145. DOI: 10.35330/1991-6639-2024-26-6-139-145. (In Russian)</mixed-citation></ref><ref id="B7"><label>7.</label><citation-alternatives><mixed-citation xml:lang="en">Shereuzhev M.A., Arabadzhiev D.I., Semyannikov I.V. Modeling of a collision avoidance algorithm in collaborative robotic systems. News of the Kabardino-Balkarian Scientific Center of RAS. 2024. Vol. 26. No. 6. Pp. 67–81. DOI: 10.35330/1991-6639-2024-26-6-67-81. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Шереужев М. А., Арабаджиев Д. И., Семянников И. В. Моделирование алгоритма предотвращения столкновений в робототехнических коллаборативных системах // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 67–81. DOI: 10.35330/1991-6639-2024-26-6-67-81.</mixed-citation></citation-alternatives></ref><ref id="B8"><label>8.</label><mixed-citation>He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas (NV), 2016. Pp. 770–778. DOI: 10.1109/CVPR.2016.90</mixed-citation></ref><ref id="B9"><label>9.</label><citation-alternatives><mixed-citation xml:lang="en">Petrenko V.I. Classification of multi-agent reinforcement learning tasks. News of the Kabardino-Balkarian Scientific Center of RAS. 2021. Vol. 3. No. 101. Pp. 32–44. DOI: 10.35330/1991-6639-2021-3-101-32-44. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Петренко В. И. Классификация задач мультиагентного обучения с подкреплением // Известия Кабардино-Балкарского научного центра РАН. 2021. Т. 3. № 101. С. 32–44. DOI: 10.35330/1991-6639-2021-3-101-32-44.</mixed-citation></citation-alternatives></ref><ref id="B10"><label>10.</label><citation-alternatives><mixed-citation xml:lang="en">Cole A., Gandju S., Kazam M. Iskusstvennyy intellekt i komp'yuternoye zreniye: real'nyye proyekty na Python, Keras i TensorFlow [Artificial intelligence and computer vision: Real projects using Python, Keras, and TensorFlow]. St. Petersburg: Piter, 2019. 356 p. ISBN: 978-1-492-04305-0. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Коул А., Ганджу С., Казам М. Искусственный интеллект и компьютерное зрение: реальные проекты на Python, Keras и TensorFlow. Санкт-Петербург: Питер, 2019. 356 с. ISBN: 978-1-492-04305-0.</mixed-citation></citation-alternatives></ref><ref id="B11"><label>11.</label><citation-alternatives><mixed-citation xml:lang="en">Ushakov A.E., Stebulyanin M.M. Study of model training parameters for a course control system. Internauka. 2025. No. 1-3(365). Pp. 53–57. EDN: OXPGLQ. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Ушаков А. Е., Стебулянин М. М. Исследование параметров обучения модели для системы управления курсом движения // Интернаука: электронный научный журнал. 2025. № 1-3(365). С. 53–57. EDN: OXPGLQ</mixed-citation></citation-alternatives></ref><ref id="B12"><label>12.</label><citation-alternatives><mixed-citation xml:lang="en">Ushakov A.E. Using a simulator to study autonomous driving technologies. Russian Science in the Modern World: Proceedings of the LXVII International Scientific and Practical Conference. Moscow, January 15, 2025. Moscow: Aktualnost. RF, 2025. Pp. 155–158. EDN: JFUWYO. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Ушаков А. Е. Использование симулятора для исследования технологий автономного движения // Российская наука в современном мире: сборник статей LXVII международной научно-практической конференции, Москва, 15 января 2025 г. М.: Актуальность. РФ, 2025. С. 155–158. EDN: JFUWYO</mixed-citation></citation-alternatives></ref><ref id="B13"><label>13.</label><mixed-citation>Sutton R.S., Barto A.G. Reinforcement Learning: An Introduction. Cambridge, MA: MIT Press, 2018. 552 с.</mixed-citation></ref><ref id="B14"><label>14.</label><mixed-citation>Liang X., Wang T., Yang L., Xing E. CIRL: Controllable imitative reinforcement learning for vision-based self-driving. Proceedings of the European Conference on Computer Vision (ECCV). 2018. DOI: 10.48550/arXiv.1807.03776</mixed-citation></ref><ref id="B15"><label>15.</label><citation-alternatives><mixed-citation xml:lang="en">Shereuzhev M.A., Shereuzhev M.A., Kishev A.Yu. Issues of selecting a machine vision system for agricultural robotic complexes for weed control. News of the Kabardino-Balkarian Scientific Center of RAS. 2022. No. 4(108). Pp. 84–95. DOI: 10.35330/1991-6639-2022-4-108-84-95. (In Russian)</mixed-citation><mixed-citation xml:lang="ru">Шереужев М. А., Шереужев М. А., Кишев А. Ю. Вопросы выбора системы технического зрения сельскохозяйственных робототехнических комплексов для контроля сорной растительности // Известия Кабардино-Балкарского научного центра РАН. 2022. № 4(108). С. 84–95. DOI: 10.35330/1991-6639-2022-4-108-84-95</mixed-citation></citation-alternatives></ref><ref id="B16"><label>16.</label><mixed-citation>Chen D., Zhou B., Koltun V., Krähenbühl P. Learning by Cheating: arXiv preprint arXiv:1912.12294. 2019</mixed-citation></ref></ref-list></back></article>
