Модификация алгоритма глубокого обучения для распределения функций и задач между робототехническим комплексом и человеком в условиях неопределенности и переменности окружающей среды
М. А. Шереужев, У Го, В. В. Серебренный
Загрузить полный текст
Аннотация: В реальном мире условия редко бывают стабильными, что требует от робототехнических комплексов (РТК) способности к адаптации в условиях неопределенности. Синергия человека и робота повышает производительность, однако для этого необходимы эффективные методы распределения задач, учитывающие особенности обеих сторон. Целью работы является определение оптимальных стратегий распределения задач между людьми и РТК и адаптивное управление РТК в условиях неопределенности и изменяющейся среды. Методы исследования. В работе предложен графовый подход к распределению задач, основанный на возможностях человека и робота. В алгоритм обучения с подкреплением встроен механизм памяти LSTM (Long short-term memory) для решения проблемы частичной наблюдаемости, вызванной неточностью измерений сенсоров и шумом окружающей среды. Метод HER (Hindsight Experience Replay) применен для преодоления проблемы скудных вознаграждений. Результаты. Обученная модель продемонстрировала стабильную сходимость, достигая высокого уровня успешности манипуляции объектами. Интеграция методов LSTM и HER в обучение с подкреплением позволяет успешно решать вопросы распределения задач между человеком и роботом в условиях неопределенности и изменяющейся среды. Предложенный метод можно применять в различных сценариях для РТК в сложных и изменяющихся условиях.
Ключевые слова: взаимодействие человека и робота, адаптивный алгоритм управления, распределение задач, обучение с подкреплением
Для цитирования. Шереужев М. А., Го У, Серебренный В. В. Модификация алгоритма глубокого обучения для распределения функций и задач между робототехническим комплексом и человеком в условиях неопределенности и переменности окружающей среды // Известия Кабардино-Балкарского научного центра РАН. 2024. Т. 26. № 6. С. 208–218. DOI: 10.35330/1991-6639-2024-26-6-208-218
Список литературы
- Fiore M., Clodic A., Alami R. On planning and task achievement modalities for human-robot collaboration. In Experimental Robotics: The 14th International Symposium on Experimental Robotics. Marrakech, Morocco: Springer. 2016. Pp. 293–306.
- Ghadirzadeh A., Chen X., Yin W. et al. Human-centered collaborative robots with deep reinforcement learning. IEEE Robotics and Automation Letters. 2020. Vol. 6(2). Pp. 566–571. DOI: 10.48550/arXiv.2007.01009
- Qureshi A.H., Nakamura Y., Yoshikawa Y., Ishiguro H. Robot gains social intelligence through multimodal deep reinforcement learning. In IEEE-RAS. 16th International Conference on Humanoid Robots (humanoids). 2016. Pp. 745–751. DOI: 10.48550/arXiv.1702.07492
- Kwok Y.K., Ahmad I. Static scheduling algorithms for allocating directed task graphs to multiprocessors. ACM Computing Surveys. 1999. Vol. 31(4). Pp. 406–471. DOI: 10.1145/344588.344618
- Malik A.A., Bilberg A. Complexity-based task allocation in human-robot collaborative assembly. Industrial Robot: International Journal of Robotics Research and Application. 2019. Vol. 46(4). Pp. 471–480. DOI: 10.1108/IR-11-2018-0231
- Lucignano L., Cutugno F., Rossi S., Finzi A. A dialogue system for multimodal human-robot interaction. Proceedings of the 15th ACM on International Conference on Multimodal Interaction. 2013. Pp. 197–204. DOI: 10.1145/2522848.2522873
- Qiu C., Hu Y., Chen Y., Zeng B. Deep deterministic policy gradient (DDPG)-based energy harvesting wireless communications. IEEE Internet of Things Journal. 2019. Vol. 6(5). Pp. 8577–8588. DOI: 10.1109/JIOT.2019.2921159
- Hochreiter S. Long Short-term Memory. Neural Computation MIT-Press. 1997.
- Andrychowicz M., Wolski F., Ray A. et al. Hindsight experience replay. Advances in Neural Information Processing Systems. 2017. Vol. 30.
- Towers M., Kwiatkowski A., Terry J. et al. Gymnasium: A standard interface for reinforcement learning environments. arXiv:2407.17032. 2024. DOI: 10.48550/arXiv.2407.17032
Информация об авторе
Шереужев Мадин Артурович, кан. тех. наук, мл. науч. сотр., Центр когнитивных технологий
и систем технического зрения, Московский государственный технологический университет
«СТАНКИН»;
127055, Россия, Москва, Вадковский пер., 1;
старший преподаватель, кафедра «Робототехнические системы и мехатроника», Московский
государственный технический университет им. Н. Э. Баумана;
105005, Россия, Москва, 2-я Бауманская улица, 5, корп. 1;
m.shereuzhev@stankin.ru, ORCID: http://orcid.org/0000-0003-2352-992X; SPIN-код: 1734-9056
У Го, аспирант кафедры «Робототехнические системы и мехатроника», Московский государственный
технический университет им. Н. Э. Баумана;
105005, Россия, Москва, 2-я Бауманская улица, 5, корп. 1;
ug@student.bmstu.ru, ORCID: http://orcid.org/0000-0001-8424-4421; SPIN-код: 9189-9658
Серебренный Владимир Валерьевич, кан. тех. наук, доцент, зав. кафедрой «Робототехнические
системы и мехатроника», Московский государственный технический университет им. Н. Э. Баумана;
105005, Россия, Москва, 2-я Бауманская улица, 5, корп. 1;
vsereb@bmstu.ru, ORCID: http://orcid.org/0000-0003-1182-2117, SPIN-код: 5410-8433