전장 상황 분석을 위한 추론 능력 극대화된 sLLM 구축 방법론
Methodology for building sLLM with maximized reasoning ability for battlefield situation analysis
- 주제(키워드) RAG , GRPO , sLLM
- 주제(DDC) 355
- 발행기관 아주대학교 일반대학원
- 지도교수 임재성
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 국방디지털융합학과
- 실제URI http://www.dcollection.net/handler/ajou/000000035167
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
현대의 전장 상황에서는 다양한 수단을 통해 방대한 양의 데이터가 실시간으로 생성 유통되며, 이를 신속하고 정확하게 분석하여 제공 되어야 하고 지휘관은 이러한 정로를 기반으로 전략적 의사결정을 내 리도록 지원하는 것이 매우 중요하다. 본 연구에서는 대규모 언어 모델 (Large Language Model, LLM)과 검색 증강 생성(Retrieval-Augmented Generation, RAG) 기술을 활용하여 앞에서 언급하였듯이 전장상황에서 발생하는 방대한 양의 데이터를 보다 신속 정확하게 분석 하기 위한 국방에 특화된 고성능 경량 언어 모델을 구축하는 방법을 제안한다. 제안하는 방법은 4단계 통합 프레임워크로 구성된다: (1) Medium CoT 데이터를 활용한 reasoning-oriented SFT와 GRPO를 통한 추론 능력 강화 단계, (2) Teacher 모델(Llama3.1 405B)을 활용한 verification cascade 기반 고품질 3중 구조 합성 데이터 생성 및 rejection s amp l i ng을 통한 고신뢰도 추론 데이터 수집으로 Studen t 모델에 지식 전달하는 단계, (3) 학습된 모델을 RAG 파이프라인과 통합하여 실시간 전장 상황 분석 시스템을 구현하는 단계. 특히, CoT 길이와 성능 간의 관계 분석을 통해 전장 상황 분석에서는 Medium-length reasoning이 최적임을 실증하였으며, 합성 데이터 생성단계에서 verification cascade를 수행함으로써 추론 시의 계산 부하를 최소화했다. 실험 결과, 제안하는 방법은 기존 RAG 시스템의 한계점인 환각 현상과 중간 정보 손실 문제를 효과적으로 해결하였으며, out-of-knowledge-base 질의에 대한 87.6%의 적절한 거부 응답률을 달성하여 높은 신뢰성을 입증하였다. 또한 경량 모델(8B)임 에도 불구하고 source extraction F1 0.841, response appropriateness 0.785, source utilization 0.801의 우수한 성능을 달성하였다.
more목차
제 1 장 서론 1
제 2 장 관련 연구 8
제 1 절 Naive RAG 8
제 2 절 Reflective RAG 10
제 3 절 Retrieval-augmented Training 14
제 3 장 제안 기법 18
제 1 절 Mathematical Reasoning Training and GRPO 18
제 2 절 Data Generation and Supervised Fine-Tuning 21
제 3 절 Integration with RAG pipeline 24
제 4 장 실험 25
제 1 절 실험 환경 25
제 2 절 평가 지표 29
제 3 절 추론 데이터 길이에 따른 성능 분석 33
제 4 절 Ablation Study 36
제 5 절 Out-of-Knowledge-Base Query Evaluation 39
제 6 절 기존 연구와의 비교 42
제 7 절 정성 평가 45
제 5 장 결론 48
참고문헌 50
Abstract 53

