강화학습 접근법을 이용한 반도체 클러스터 도구의 생산량 최적화
- 주제(키워드) 클러스터 툴 , 스케쥴링 , 최적화
- 주제(DDC) 005.1
- 발행기관 아주대학교 정보통신대학원
- 지도교수 손경아
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 정보통신대학원 지능형소프트웨어
- 실제URI http://www.dcollection.net/handler/ajou/000000034902
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
반도체 제조 공정의 복잡성과 비선형성이 증가함에 따라, 생산 장비의 실시 간 제어 최적화는 Fab 운영 효율성을 결정짓는 핵심 과제로 부상하고 있다. 특히 클러스터 툴과 같이 다수의 프로세스 모듈과 로봇이 동시에 작동하는 환경에서는 웨이퍼 흐름의 정밀한 타이밍 제어가 전체 처리량(Throughput) 에 큰 영향을 미친다. 본 연구는 클러스터 툴의 생산량을 실시간으로 최적화 하기 위한 방안으로, 강화학습 기반의 JIT Matrix 최적화 프레임워크를 제 안한다. 기존 연구들이 단일 JIT 파라미터(JIT1)에 대한 정적 예측에 국한된 반면, 본 연구는 JIT1, JIT2, JIT3 항목을 PM 단위로 제어 가능한 다차원 JIT Matrix로 확장하여 세밀한 제어를 가능하게 하였으며, 이를 Soft Actor- Critic(SAC) 기반의 강화학습 모델로 최적화하였다. 제안된 정책은 Petri Net 기반 시뮬레이터와 연동된 학습 환경에서 수천 스텝에 걸쳐 학습되었으 며, 처리량 지표인 FOLI(First Out Last In)를 보상 함수로 활용하여 정책 수 렴 특성을 분석하였다. 실험 결과, 학습된 정책은 이론적 최대 FOLI 대비 약 94.3% 수준까지 수렴하며, 각 JIT 항목이 처리량에 유사한 수준으로 기여함 을 정량적으로 입증하였다. 또한 학습된 정책 함수는 경량 추론 구조로 전환 가능하도록 설계되어, 실제 Fab 장비의 상태 정보를 입력으로 받아 실시간 으로 최적 JIT Matrix를 출력할 수 있다. 본 연구는 강화학습 기반 제어 정 책이 반도체 장비의 자동화와 자율 최적화에 실질적인 기술적 기여를 할 수 있음을 실증적으로 제시하며, 향후 다양한 환경 변화와 실시간 제어 요구를 수용할 수 있는 스마트 Fab 구현의 기반 기술로 확장될 수 있다.
more목차
제 1 장. 서론 1
1.1 연구 배경 및 필요성 1
1.2 본 연구의 목적 및 기여 2
1.3 본 연구에서 사용되는 용어 정의 3
제 2 장. 관련 연구 4
2.1 반도체 클러스터 툴 스케줄링 연구 개요 4
2.2 머신러닝 기반 처리량 예측 연구 5
2.3 강화학습 기반 스케줄링 연구 5
2.4 기존 연구의 공통적 한계 6
2.5 본 연구의 차별성 7
제 3 장. 시스템 설계 및 강화학습 모델 구조 8
3.1 클러스터 툴 시뮬레이터 개요 8
3.2 JIT Matrix 정의 9
3.3 강화학습 구조 설계 10
3.4 학습 환경 및 동작 흐름 11
3.5 실시간 추론 구조로의 확장 12
3.6 소결 13
제 4 장. 실험설계 13
4.1 실험 목적 13
4.2 실험 환경 및 구성 14
제 5 장. 실험 결과 및 분석 15
5.1 FOLI 결과 및 수렴 분석 15
5.2 JIT Matrix 변화 분석: 가중 기여도 중심 정량 평가 17
5.3 Reward 및 정책 안정성 분석 19
5.3.1 보상 수렴 곡선 19
5.3.2 정책 Entropy 감소 20
5.3.3 Soft Policy Alpha 수렴 20
5.4 소결 21
제 6 장. 추론 모델로의 확장 가능성 21
6.1 정책 함수의 추론 모델로의 전환과 구조설계 21
6.2 시스템 아키텍처 개요 22
6.3 적용 시 고려사항 24
제 7 장. 결론 24
제 8 장. 향후 연구 27
참고문헌 29