검색 상세

반도체 검사 장비를 위한 강화학습 기반 이중 서보 제어기 설계

Design of a Reinforcement Learning- Based Dual-Servo Controller for Semiconductor Inspection Equipment

초록/요약

반도체 제조 공정에서 웨이퍼 및 레티클을 이송하는 초정밀 스테이지는 공정 전반에서 핵심적인 역할을 수행한다. 검사 장비용 스테이지는 수백 밀리미터 이상의 장거리 행정 범위, 나노미터 수준 위치 정밀도, 그리고 빠른 안정화 시 간을 동시에 만족해야 한다. 이를 위해 조동 스테이지(Coarse Stage)와 미동 스 테이지(Fine Stage)로 구성된 이중 서보 스테이지(Dual-Servo Stage)가 널리 사용된 다. 일반적으로 두 스테이지는 독립적인 PID(Proportional-Integral-Derivative) 제어 루프에서 동작하며 협조 제어를 통해 응답을 동기화한다. 그러나 실제 시스템 은 스테이지 간의 동 특성 불일치, 정렬 오차, 기구적 결합 등으로 인해 비선형 성이 발생하여 협조성이 저하된다. 기존 연구에서는 협조성 향상을 위해 Feedforward 보상, Gain Scheduling, 모델 기반 보상 제어 등의 방법이 제안되었다. 그러나 이 방법들은 시스템의 선형 모델링 정확도에 크게 의존하며, 외란과 마찰 등 불확실한 요인에 취약하다. 또 한, 이러한 접근은 파라미터 조정이 복잡하고 환경 변화에 대한 실시간 적응이 어렵다는 한계를 가진다. 한편, 강화학습(Reinforcement Learning, RL)은 모델과 환경의 불확실성에 강하고, 상호 결합된 시스템의 거동까지 데이터 기반으로 학습할 수 있다는 장점이 있다. 그러나 일반적인 강화학습은 학습 과정에서 안 정성을 보장하기 어렵고, 샘플 효율이 낮아 실제 시스템 적용에 제약이 따른다. 본 연구에서는 이러한 문제를 해결하기 위해 1자유도의 이중 서보 스테이지 를 구성하고, 강화학습 기반 PID 제어기(RL-PID)를 적용한 이중 서보 제어기를 설계하였다. 조동 스테이지에는 기존 PID 제어기를 적용하고, 외란에 취약한 미동 스테이지에는 RL-PID를 적용하여 비선형과 외란을 보상함으로써 전체 스 테이지의 응답 성능을 향상시키도록 하였다. 제안된 RL-PID는 Ziegler–Nichols 방법으로 초기 PID 게인을 설정하고, 강화학습을 통해 PID 스케일링 인자 (𝛼, 𝛽, 𝛾 )를 학습한다. 상태(State)는 위치, 속도, 오차, 적분 오차로 정의하고, 행 동(Action)은 세 개의 스케일링 인자로 구성하였다. 보상 함수는 오차 관련 성 능 항과 Lyapunov 안정성 조건 기반 항을 통합하여 학습의 수렴성과 안정성을 동시에 고려하였다. 또한, 주파수 응답 함수(Frequency Response Function, FRF)를 이용해 안정성 기준을 만족하는 안정 영역 내에서만 학습을 수행함으로써 강화 학습의 불안정한 탐색을 억제하였다. MATLAB/Simulink 환경에서 DDPG(Deep Deterministic Policy Gradient) 알고리즘 을 활용해 학습한 정책을 dSPACE 기반 제어 시스템에 적용하여 실험적으로 성 능을 검증하였다. 시뮬레이션에서는 RL-PID가 기존 PID 대비 정착시간(5%)을 54.0 ms에서 25.0 ms로 단축시켰고, 오버슈트는 28.5%에서 10.7%로 줄였다. 실험 에서도 정착시간(5%)은 27.5 ms에서 13.3 ms로 단축되었고, 오버슈트는 8.3%에서 6.1%로 감소하였다. 또한, 사다리꼴 속도 프로파일 인가 실험에서 정속 구간에 서의 RMSE는 1.453 μm에서 0.966 μm로 약 33% 감소하여 고속 스캐닝 환경에서 도 실질적인 정밀도 향상이 확인되었다. 결론적으로 본 연구는 FRF 기반 안정 영역 내에서 Lyapunov 안정성 조건을 고려한 Safe RL과 PID 스케일링 전략을 결합함으로써, 기존 RL 기반 제어의 불 안정성과 이중 서보 협조 제어의 비선형성 문제를 동시에 개선하였다. 제안된 RL-PID는 스테이지 간 협조 불일치, 정렬 오차, 동 특성 불일치로 인한 성능 저하를 효과적으로 억제하였으며, 향후 실시간 온라인 강화학습 기반 제어 및 행동 영역(Action Space) 확장을 통해 추가 성능 향상 가능성을 제시한다.

more

목차

제 1 장 서론 1
1.1 연구 배경 1
1.2 선행 연구 4
1.3 연구 목표 8
1.4 논문의 구성 10
제 2 장 대상 시스템의 용도와 구성 11
2.1 응용 분야 및 연구 필요성 11
2.2 이중 서보 스테이지의 전체 구조 12
제 3 장 미동 스테이지 설계 및 모델링 17
3.1 미동 스테이지 설계 및 제작 17
3.2 주파수 응답 분석과 시스템 모델링 21
제 4 장 미동 스테이지 제어 전략 25
4.1 PID 제어 및 Ziegler-Nichols 방법 25
4.2 강화학습 기반 제어 구조 27
4.2.1 PID 게인 스케일링 전략 30
4.2.2 성능-안정성 통합 보상 함수 설계 33
4.2.3 DDPG 알고리즘 및 학습 절차 38
4.3 직렬형 이중 서보 제어기 40
제 5 장 시뮬레이션 및 실험 결과 42
5.1 강화학습 및 시뮬레이션 환경 구축 42
5.2 시뮬레이션 결과 분석 46
5.3 외란 추가 강화학습 및 성능 분석 53
5.4 dSPACE 기반 실험 시스템 구성 56
5.5 실험 결과 분석 60
제 6 장 결론 및 향후 과제 65
참 고 문 헌 67
Abstract 69

more