검색 상세

현실 격차를 고려한 시뮬레이션-현실 전이 기법 연구 : 로터리 역진자 시스템에서의 강건한 강화학습 제어 설계와 고속 제어 전이

A Study on Sim-to-Real Accounting for the Reality Gap: Robust Reinforcement Learning-Based Control Design and High-Speed Transfer for a Rotary Inverted Pendulum

초록/요약

최근 강화학습(Reinforcement Learning, RL)은 로봇 제어에서 시뮬레이션 기반 학습과 함께 활용되나, 시뮬레이션–현실 간 차이로 인한 현실 격차(Reality Gap)가 전이 성능을 저하시킨다. 기존 연구는 주로 동역학 정합화과 정책 강건화에 집중해 왔다. 그럼에도 실제 배포 단계에서 전이가 실패하는 사례가 존재하는데, 본 연구는 이 원인을 실행 지연/지터 불일치, 센서 양자화 불일치, 구동 입력 인터페이스 불일치로 분류하고, 이를 학습 단계에서 모사하여 내재화하는 현실 실행조건 모사 학습 (Deployment-Aware Simulation Learning, DASL) 프레임워크를 제안한다. 제안한 기법은 Quanser Rotary Inverted Pendulum 시스템에서 Swing-up 및 Balancing 과제로 검증하였다. 실험 결과, DASL 미적용시 시뮬레이션에서 우수한 성능을 보였음에도 현실 전이에서 실패한 반면, DASL을 적용시 10회 반복 실험에서 Swing-up을 1.8초 내외로 모두 성공하였다. 또한 Balancing 과제에서 DASL 적용시 전통기법 대비 외란에 강건하였고, 드리프트 및 진동이 완화되어 안정적인 자세 유지를 확인하였다. 본 연구는 실행조건 불일치가 현실 전이 성능에 미치는 영향을 실험적으로 제시하고, 이를 내재화하는 학습 프레임워크를 통해 현실 배포 성능을 개선할 수 있음을 보인다.

more

목차

1. 서론 1
2. 본론 4
2.1. DASL(Deployment-Aware Simulation Learning) 개요 4
2.1.1. DASL 의 목표와 적용 범위 4
2.1.2. Reality Gap 의 계층적 분해 6
2.1.3. DASL 파이프라인 7
2.2. Rotary Inverted Pendulum 시스템 분석 10
2.2.1. 실험 장치 및 제어 루프 10
2.2.2. 제어 목표 및 특성: Swing-up 과 Balancing 11
2.2.3. 학습모델의 상태 및 행동 정의 13
2.3. 지연/지터(Delay/Latency) 불일치 14
2.3.1. 실시간 지연/지터로 인한 상태 불일치 정의 14
2.3.2. 현실/시뮬레이션 루프 구조 차이 15
2.3.3. DASL-Delay 모듈을 통한 지연/지터 모사 전략 16
2.4. 센서 양자화(Encoder Quantization) 불일치 19
2.4.1. 센서 양자화로 인한 상태 불일치 정의 19
2.4.2. 현실/시뮬레이션 관측 및 상태 차이 20
2.4.3. DASL- Quantization 모듈을 통한 센서 양자화 모사 전략 21
2.5. 구동 입력 인터페이스 불일치(Actuation Interface Mismatch) 24
2.5.1. 구동 입력 인터페이스로 인한 상태 불일치 24
2.5.2. 전압-토크 변환 모델 (DC Motor Model) 25
2.5.3. DASL-Actuation 모듈을 통한 구동 입력 인터페이스 모사 전략 26
2.6. 현실 전이 성능 검증 28
2.6.1. 실험 환경 및 평가 지표 28
2.6.2. Swing-up 현실 전이 성능 29
2.6.3. Balancing 현실 전이 성능 32
3. 결론 35
참고문헌 38

more