검색 상세

강화학습 기반 근접방어무기체계의 드론 방어 능력 향상에 관한 연구

A Study on Improving C-UAS Capabilities of Close-In Weapon Systems Using Reinforcement Learning

초록/요약

본 연구는 현대 군사 환경에서 증가하는 드론 위협에 효과적으로 대응하기 위한 근접방어무기체계(CIWS) 성능 향상 방안을 제시한다. 저고도 침투가 가능한 소형 드론의 불규칙한 기동 패턴과 군집 운용은 기존 규칙 기반 방어 시스템의 효과적인 대응을 어렵게 만든다. 이러한 문제를 해결하기 위해 본 연구에서는 강화학습 (Reinforcement Learning)을 활용한 지능형 CIWS 제어 시스템을 설계하고 검증하였다. 연구의 첫 번째 단계로 드론의 스웨이(Sway) 운동을 모사할 수 있는 물리 기반 시뮬레이션 환경을 구축하였다. PyBullet 물리 엔진을 기반으로 한 gym-pybullet-drones를 활용하여 드론의 동적 움직임을 구현하고, 이를 2자유도 포탑 메커니즘 및 탄도 모델과 통합하였다. 특히 공기 저항, 중력 효과 등 실제 운용 환경의 물리적 제약을 충실히 반영하여 현실적인 시뮬레이션이 가능하도록 하였다. 다음으로, CIWS의 드론 방어에 최적화된 계층적 강화학습(Hierarchical Reinforcement Learning) 구조를 설계하였다. 상위 수준(표적 선택)과 하위 수준(정 밀 조준 및 발사)으로 구성된 이 구조는 복잡한 의사결정 문제를 효과적으로 분해하여 학습의 효율성을 높였다. 상태 공간은 8차원 기본 관측치(방위 차이, 드론 위치, 거리, CIWS 포신 방향)를 기반으로 구성하였으며, 행동 공간은 3차원 이산 행동 공간 (yaw 제어, pitch 제어, 발사 제어)으로 설계하였다. 학습 효율을 극대화하기 위해 여러 강화학습 알고리즘을 실험하여 최종적으로 선정한 PPO(Proximal Policy Optimization) 알고리즘을 기반으로 하되, Ray 분산 컴퓨팅 프레임워크를 활용한 병렬 학습 구조를 도입하였다. 또한 커리큘럼 학습 (Curriculum Learning) 방식을 적용하여 드론 수와 접근 각도를 단계적으로 확장함으로써 학습의 안정성과 최종 성능을 크게 향상시켰다. 실험 검증은 단일 드론부터 복수 드론(2대, 3대)까지 다양한 시나리오에서 수행되었으며, 각 시나리오별로 에피소드 보상 평균(Episode Reward Mean), 에피소드 단계 길이(Episode Step Length) 등의 정량적 지표를 통해 성능을 평가하였다. 연구 결과, 강화학습 기반 CIWS는 기존의 시선각 기반 제어 방식과 비교하여 현저히 향상된 드론 격추 성능을 보여주었다. 기존 제어 방식이 중력 효과와 드론의 불규칙한 기동으로 인해 정확한 요격에 실패한 반면, 강화학습 기반 제어는 드론의 움직임 범위를 예측하여 효과적으로 격추할 수 있었다. 이는 강화학습이 복잡한 환경에서의 최적 의사결정에 탁월한 적응력을 보여주는 결과로 해석될 수 있다. 본 연구의 한계점으로는 시뮬레이션 환경의 현실성 제약, 드론 기동 패턴의 다양성 부족, 모델 견고성 검증의 부족 등이 있다. 향후 연구 방향으로는 더욱 현실적인 시뮬레이션 환경 구축, 로버스트 강화학습을 통한 모델 안정성 향상, 설명 가능한 AI 기법의 도입, 다양한 드론 위협에 대응할 수 있는 일반화된 정책 개발, 그리고 실제 하드웨어와의 연동 연구 등이 제시된다. 본 연구는 강화학습을 활용한 CIWS의 드론 방어 능력 향상 가능성을 실험적으로 입증함으로써, 드론 방어에 대한 새로운 가능성을 제시한다. 주제어: 강화학습(Reinforcement Learning), 근접방어무기체계(CIWS), 대드론방어 (C-UAS), 계층적 강화학습(Hierachical Reinforcement Learning), 커리큘럼 학습 (Curriculum Learning)

more

초록/요약

This research presents an approach to enhance Close-In Weapon System (CIWS) performance to effectively counter the increasing drone threats in modern military environments. Small drones capable of low-altitude penetration with irregular maneuver patterns and swarm operations pose significant challenges to traditional rule-based defense systems. To address these challenges, this study designs and validates an intelligent CIWS control system utilizing Reinforcement Learning. As the first step, we constructed a physics-based simulation environment capable of modeling drone sway motion. Using gym-pybullet-drones based on the PyBullet physics engine, we implemented dynamic drone movements and integrated them with a two-degree-of-freedom turret mechanism and ballistic model. The simulation faithfully reflects physical constraints of actual operational environments, including air resistance and gravitational effects, enabling realistic simulation. Next, we designed a Hierarchical Reinforcement Learning structure optimized for CIWS drone defense. Comprised of higher-level (target selection) and lower-level (precise aiming and firing) components, this structure effectively decomposes complex decision-making problems to improve learning efficiency. The state space was constructed based on eight-dimensional basic observations (azimuth difference, drone position, distance, CIWS barrel direction), while the action space was designed as a three-dimensional discrete action space (yaw control, pitch control, firing control). To maximize learning efficiency, we employed the Proximal Policy Optimization (PPO) algorithm with a parallel learning structure utilizing the Ray distributed computing framework. Additionally, we applied Curriculum Learning to progressively expand the number of drones and approach angles, significantly enhancing learning stability and final performance. Experimental validation was conducted across various scenarios ranging from single to multiple drones (2 and 3), with performance evaluated through quantitative metrics such as Episode Reward Mean and Episode Step Length for each scenario. Results demonstrated that the Reinforcement Learning-based CIWS exhibited significantly improved drone interception performance compared to conventional line-of-sight control methods. While traditional control methods failed to achieve accurate interception due to gravitational effects and irregular drone maneuvers, the Reinforcement Learning-based control successfully intercepted drones by predicting their movement ranges. This outcome can be interpreted as Reinforcement Learning demonstrating excellent adaptability for optimal decision-making in complex environments. Limitations of this study include constraints in simulation environment realism, insufficient diversity in drone maneuver patterns, and limited model robustness verification. Future research directions include developing more realistic simulation environments, improving model stability through robust Reinforcement Learning, introducing explainable AI techniques, developing generalized policies capable of responding to various drone threats, and conducting integration research with actual hardware. This research experimentally demonstrates the potential for enhancing CIWS drone defense capabilities using Reinforcement Learning, presenting new possibilities for drone defense.

more

목차

제 1 장 서 론 1
제 1 절 연구 배경 1
제 2 절 연구 필요성 2
제 3 절 연구 목적 3
제 4 절 논문 구성 5
제 2 장 본 론 7
제 1 절 배경 지식 7
제 1 관 근접방어무기체계(CIWS-Close In Weapon System) 7
제 2 관 드론 대응 기술 (C-UAS) 8
제 1 조 탐지 기술 8
제 1 항 레이더(Radar) 기반 탐지 8
제 2 항 RF 신호 기반 탐지 8
제 3 항 패시브 레이더(Passive Radar) 9
제 4 항 음향(Acoustic) 센서 9
제 5 항 EO/IR(전자광학/적외선) 센서 10
제 2 조 무인기 추적·식별(Tracking & Identification) 기술 10
제 1 항 머신러닝·딥러닝 기반 센서 융합 10
제 2 항 드론 기종 분류(Classification) 11
제 3 항 추적(Tracking) 알고리즘 12
제 3 조 무력화 기술 12
제 1 항 소프트 킬 12
제 2 항 하드 킬 13
제 3 관 강화학습 15
제 1 조 강화학습 개요 15
제 1 항 강화학습 역사 15
제 2 항 대표적인 강화학습 알고리즘 16
제 3 항 PPO 알고리즘 18
제 2 절 관련 연구 21
제 1 관 인공지능을 활용한 하드킬 기반 C-UAS 관련 연구 동향 21
제 1 조 Anti-Drone System 21
제 2 조 A Soft-Kill Reinforcement Learning Counter Unmanned Aerial System (C-UAS) With Accelerated Training 21
제 3 조 A Review of Counter-UAS Technologies for Cooperative Defensive Teams of Drones 21
제 4 조 Counter Drone Technology: A Review 22
제 5 조 Lethal autonomous weapons systems & artificial intelligence: Trends, challenges, and policies 22
제 6 조 Analysis of anti-drone systems 23
제 7 조 DroneSilient (drone + resilient): an anti-drone system 23
제 8 조 Multi-Agent Partial Observable Safe Reinforcement Learning for Counter Uncrewed Aerial Systems 24
제 9 조 Anti-Drone Systems and Assessment of Their Launch Coverage 25
제 10 조 A C4 Software for Anti-Drone System 25
제 11 조 Development Status and Operation Analysis of Laser Weapon in Anti-Drone Warfare 26
제 12 조 Strategic Enhancement of C-UAS through Advanced Human-Computer Collaborative Command and Control Mechanism 26
제 13 조 Anti-drone Sensors, Effectors, and Systems – A Concise Overview 27
제 14 조 An Anti-drone Device Based on Capture Technology 27
제 2 관 선행 연구의 한계점과 본 연구와 기존 연구와의 차이 28
제 3 절 연구 방법 29
제 1 관 드론을 포함한 CIWS 시뮬레이션 환경 구축 29
제 1 조 드론 시뮬레이션 29
제 2 조 드론 제어 30
제 1 항 상태 벡터 정의 30
제 2 항 속도 벡터 계산 30
제 3 조 CIWS 시뮬레이션 32
제 1 항 시스템 구조 33
제 2 항 탄도 모델 34
제 3 항 시선각을 통한 기본 CIWS 조준 제어기 구현 35
제 2 관 강화학습을 위한 환경 구성 38
제 1 조 계층적 강화학습 적용 38
제 1 항 계층적 강화학습 구조의 이론적 근거 38
제 2 항 관측 및 상태공간 39
제 3 항 보상체계 40
제 2 조 분산 강화학습 시스템 설계 41
제 1 항 RAY 기반의 분산 학습 구조 41
제 2 항 분산 학습의 이점 42
제 3 관 커리큘럼 러닝 44
제 1 조 커리큘럼 러닝의 개념 44
제 2 조 강화학습에서 커리큘럼 러닝의 활용 44
제 3 조 본 연구에서의 커리큘럼 러닝 활용 44
제 4 절 실험 및 결과 분석 46
제 1 관 실험 시나리오 설계 46
제 1 조 단일 드론 시나리오 46
제 1 항 단일 방위 공격 시나리오 46
제 2 항 범위 방위 공격 시나리오 47
제 2 조 복수 드론 시나리오 (드론 2대 접근) 47
제 1 항 단일 방위 공격 시나리오 47
제 2 항 범위 방위 공격 시나리오 48
제 3 조 복수 드론 시나리오 (드론 3대 접근) 48
제 1 항 단일 방위 공격 시나리오 48
제 2 항 범위 방위 공격 시나리오 49
제 2 관 성능 평가 지표 정의 50
제 1 조 학습 수렴성(Learning Convergence) 50
제 2 조 에피소드 보상평균(Episode Reward Average) 51
제 3 조 에피소드 단계 길이(Episode Step Length) 52
제 3 관 시나리오 별 평가 지표에 따른 실험 결과 54
제 1 조 강화학습 알고리즘 선정 54
제 1 항 시나리오 1-1-1에 대한 각 강화학습 별 수렴성 비교 54
제 2 조 단일 드론 시나리오 결과 56
제 1 항 단일 방위 공격 시나리오 결과 56
제 2 항 전체 방위 공격 시나리오 결과 58
제 3 조 복수 드론 시나리오 (드론 2대 접근) 60
제 1 항 단일 방위 공격 시나리오 결과 60
제 2 항 전체 방위 공격 시나리오 결과 62
제 4 조 복수 드론 시나리오 (드론 3대 접근) 64
제 1 항 단일 방위 공격 시나리오 결과 64
제 2 항 전체 방위 공격 시나리오 결과 66
제 5 조 전체 시나리오 결과 해석 68
제 4 관 기존 CIWS 제어 방식과의 성능 비교 69
제 1 조 시선각으로만 제어 할 경우의 성능 69
제 1 항 offset 없이 시선각으로만 제어 (드론 1기 0도 접근) 69
제 2 항 중력 고려 offset 적용 시선각 제어 (드론 1기 10도 접근) 69
제 2 조 강화학습 적용하여 제어할 경우의 성능 70
제 1 항 강화학습으로 Yaw, Pitch 학습 후 추론 (드론 1기 0도 접근) 70
제 2 항 강화학습으로 Yaw, Pitch 학습 후 추론 (드론 1기 10도 접근) 71
제 5 관 학습의 전체 과정 72
제 6 관 본 연구에서 제안한 학습 방법의 확장성 분석 73
제 1 조 실험설계 73
제 3 장 결 론 75
제 1 절 주요 연구 성과 75
제 2 절 연구 한계점 77
제 3 절 향후 연구 과제 78
참 고 문 헌 80
Abstract 85

more