검색 상세

시뮬레이션 환경 내 보행자 충돌 회피를 위한 커리큘럼 강화학습 프레임워크 개발

Curriculum Reinforcement Learning Framework in Simulation Environments for Collision Avoidance with Pedestrians

초록/요약

자율주행 시스템에서 PCAS(Pedestrian Collision Avoidance System)는 탑승자 및 보행자의 생명과 직결되는 핵심 안전 기능 중 하나이다. 최근에는 다양한 위험 상황에서의 최적 회피 전략을 스스로 학습할 수 있는 강화학습 기반 접근 방식이 주목받고 있다. 하지만 초기 학습 과정에서 과도하게 어려운 상황은 학습이 불안정해지는 문제가 존재한다. 또한, 복잡한 상황에서 의미 있는 전략을 학습하기까지 많은 학습 시도와 시간이 필요하다는 점에서 샘플 효율성의 한계가 존재한다. 본 논문에서는 강화학습 알고리즘의 학습 효율 향상과 학습 불안정성 문제를 해결하기 위해 사전 정의 커리큘럼과 자동 커리큘럼 학습 방식을 결합한 학습 방법을 제안한다. 점진적으로 배워야 할 시나리오를 사전에 정의하고 이를 학습 단계에서 우선적으로 고려한다. 동시에 복잡한 전략을 학습하기 위해 단일 시나리오가 아닌 다중 시나리오를 커리큘럼에 반영할 수 있는 프레임워크를 개발했다. 다른 커리큘럼 방식과 비교하기 위해 회피 성공률, 충돌 시 속도를 평가했다. 제안한 방법은 회피 성공률에서 3.12%, 학습 효율에서 15.0% 개선을 보였다. 이는 제안한 커리큘럼이 강화학습 기반 보행자 회피 전략 학습에 있어 학습의 안정성과 성능을 효과적으로 향상시킬 수 있음을 시사한다.

more

목차

1. 서론 1
1.1 연구 배경 1
1.2 연구 동향 4
2. 문제 정의 8
3. 시나리오 생성 11
3.1 시나리오 카탈로그 선정 11
3.2 시나리오 정의 13
3.3 N-wise 샘플링 16
4. 보행자 충돌 회피를 위한 커리큘럼 강화학습 18
4.1 커리큘럼 설계 18
4.1.1 Scenario Preprocessor 19
4.1.2 Guided Prioritized Level Replay 22
4.2 강화학습 기반 충돌 회피 알고리즘 24
4.2.1 강화학습 알고리즘 선정 24
4.2.2 환경 구성 및 보상 정의 24
5. 프레임워크 개발 및 검증 28
5.1 프레임워크(MORAI-Gym) 개발 28
5.2 프레임워크 검증 31
6. 보행자 충돌 회피 평가 33
6.1 학습 및 평가 시나리오 33
6.2 평가 방법 34
6.2.1 평가 지표 34
6.2.2 평가 기준 및 구현 세부 사항 35
6.2.3 평가 결과 36
7. 결론 41
8. 참고문헌 42

more