모방학습 기반 교통신호 최적화 운영 프레임워크 개발 연구
Research on development of traffic signal optimization operation framework based on imitation learning
- 주제(키워드) 교통신호 , 강화학습 , 모방학습 , 딥러닝 , 인공지능
- 발행기관 아주대학교 일반대학원
- 지도교수 소재현
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 일반대학원 D.N.A.플러스융합학과
- 실제URI http://www.dcollection.net/handler/ajou/000000034780
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
본 연구는 교통신호 제어 분야에서 모방학습(Imitation Learning) 기법을 적 용하여, 전문가의 신호 운영 전략을 효율적으로 학습하고 이를 통해 교차로 교 통 흐름을 최적화할 수 있는 가능성을 검증하고자 하였다. 기존 고정식 혹은 감응식 신호체계는 실시간 교통량 변동 및 돌발 상황에 즉각 대응하기에 한계 가 있었고, 강화학습(Reinforcement Learning) 기반 기법은 충분한 학습 시간 과 대규모 데이터가 필요하다는 문제를 지닌다. 이에 대안으로 제시된 모방학 습은 전문가(경찰관, 교통센터 운영자 등)가 시행한 정책(policy) 혹은 시연 (demonstration)을 모델이 직접 학습함으로써, 상대적으로 빠른 학습과 안정된 초기 성능을 확보하는 데 주안점을 둔다. 구체적으로 본 연구에서는 Behavior Cloning(BC)와 Inverse Reinforcement Learning(IRL)을 각각 교차로 신호 제어에 적용하였다. 시뮬레이터(SUMO)와 3차원 인터페이스(Unity)를 연동하여 실제 교차로 환경과 유사한 가상 실험 환경을 구축하고, 사용자(전문가)의 실시간 신호 조작 데이터를 수집하였다. 이 후 (상태–행동) 쌍을 활용한 BC 모델과, 전문가의 잠재적 보상 함수를 역추정 하는 IRL 모델을 학습시키고, 이들을 기존 고정신호 및 강화학습 모델과 성능 비교하였다. 실험 결과, BC와 IRL은 각각 전문가 행동과 약 85% 내외의 높은 유사도를 보이며, 통행 지체 감소와 평균 속도 향상 측면에서 기존 고정식 신호보다 개 선된 성능을 나타냈다. 특히 BC는 전문가 정책을 빠르게 모사함으로써 구현이 단순하면서도 4~6% 수준의 지체 감소효과를 보였고, IRL은 보상 구조를 학습 함으로써 상황에 따라 더 유연한 신호 배분이 가능함을 확인하였다. 다만 강화 학습 모델은 충분한 학습 시간과 반복 시뮬레이션을 거친 뒤 가장 높은 성능 (약 10% 이상의 지체 감소)을 달성하여, 장시간 학습이 허용되는 환경이라면 강화학습이 최적화 관점에서 유리함도 확인되었다. 결론적으로, 모방학습 기반 신호제어 기법은 전문가 수준의 정책을 빠르고 안정적으로 재현하면서도, 기존 고정식 시스템보다 월등히 높은 효율과 실시간 대응력을 확보할 수 있음을 본 연구가 입증하였다. 향후 실제 도로 환경에서의 추가 검증, 보행자·긴급차량 우선신호 등 현실적 요소 반영, 그리고 모방학습과 온라인 강화학습을 결합한 하이브리드 신호 운영 방안에 대한 연구가 지속된다 면, 지능형 교통시스템(ITS) 전반에서 더욱 향상된 교통 흐름 관리가 가능할 것으로 기대된다. 주제어: 교통신호, 강화학습 , 모방학습 , 딥러닝, 인공지능
more목차
제1장 서론 1
제1절 연구의 배경 및 목적 1
1. 연구의 배경 1
2. 연구의 목적 3
제2절 연구의 방법 및 절차 4
제2장 관련 연구 고찰 5
제1절 이론적 고찰 5
1. 강화학습 5
2. Behavior Cloning 6
3. Inverse Reinforcement learning 7
제2절 선행 연구 고찰 9
1. 인공지능 기반 신호 최적화 연구 9
2. 관련분야에서의 모방학습 관련 연구 11
3. 매뉴얼 제어의 효과 관련 연구 14
제3절 시사점 및 연구의 차별성 15
제3장 방법론 정립 17
제1절 모방학습 기반 신호제어 프레임워크 구축 17
제2절 대상 교차로 분석 및 기초자료 수집 18
제3절 시뮬레이션 환경 구축 19
제4절 유저 섭외 및 구성 21
제5절 유저 데이터 분석 21
제4장 모델 구축 및 평가 23
제1절 모델 선정 23
제2절 모델 구축 25
1. 개요 25
2. 강화학습 26
3. Behavior Cloning 28
4. Inverse Reinforcement Learning 30
제3절 모델 성능 평가 33
1. 모델 유사도 평가 33
2. 모델 실증 결과 35
제4절 결과 해석 및 시사점 도출 38
제5장 결론 및 향후 연구 41
제1절 연구의 결론 41
제2절 연구의 한계점 및 향후 과제 42