LLM 기반 네트워크 이상 트래픽 탐지 및 대응 규칙 자동화
LLM-Based Network Anomaly Traffic Detection and Automated Detection Rule Generation
- 주제(키워드) 네트워크 이상 탐지 , 대규모 언어 모델 , Suricata 규칙 자동화 , 프롬프트 엔지니어링 , BERT
- 주제(DDC) 005.8
- 발행기관 아주대학교 정보통신대학원
- 지도교수 김강석
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 사이버보안
- 실제URI http://www.dcollection.net/handler/ajou/000000035564
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
As network threats become increasingly sophisticated alongside the acceleration of digital transformation and cloud adoption, traditional signature-based Intrusion Detection Systems (IDS) face significant challenges in responding to zero-day attacks and evolving threats. Although machine learning-based anomaly detection has been widely researched, automatically translating detected anomalies into executable security rules remains a manual, labor-intensive process. To address this gap, this paper proposes a hybrid security automation framework that integrates BERT-based classification models with Large Language Models (LLMs). The proposed system was trained using a combined dataset derived from a real-world WordPress honeypot and CIC-IDS2017. We utilized BERT, RoBERTa, and DeBERTa for precise anomaly classification. For the rule generation phase, we employed GPT-OSS and LLaMA 3.1 8B models. A key contribution of this study is the application of Supervised Fine-Tuning (SFT) on these LLMs using a curated dataset of approximately 3,000 expert-labeled entries, combined with rigorously designed system prompts to ensure syntactic correctness. Experimental results demonstrated that the RoBERTa model achieved the most stable detection performance, recording the lowest False Positive Rate (FPR) and False Negative Rate (FNR). In the automated rule generation phase, the GPT-OSS model achieved a syntactic validity rate of 66.86%, proving the feasibility of generating immediately deployable Suricata rules. This study presents a practical approach to automating the entire pipeline from anomaly detection to rule creation, thereby enhancing security operational efficiency and significantly reducing response times to emerging threats
more초록/요약
디지털 전환 가속화와 클라우드 환경의 확산으로 네트워크 위협이 지능화됨에 따라, 기존 시그니처 기반 침입 탐지 시스템(IDS)은 제로데이 공격과 변종 위협 대응에 한계를 보이고 있다. 머신러닝 기반의 이상 탐지 연구가 활발히 진행되고 있으나, 탐지된 이상 징후를 즉시 실행 가능한 보안 규칙(Rule)으로 자동 변환하는 과정은 여전히 전문가의 수작업에 의존하고 있다. 본 연구는 이러한 한계를 극복하기 위해 BERT 계열의 분류 모델과 대규모 언어 모델(LLM)을 결합한 하이브리드 보안 자동화 프레임워크를 제안한다. 제안된 시스템은 WordPress 허니팟과 CIC-IDS2017 데이터셋을 통합하여 학습되었으며, BERT, RoBERTa, DeBERTa 모델을 통해 이상 트래픽을 정밀하게 분류한다. 이후, GPT-OSS 및 LLaMA 3.1 8B 모델에 약 3,000건의 전문가 구축 데이터셋을 기반으로 지도 미세조정(SFT)을 수행하고, 정교하게 설계된 시스템 프롬프트를 적용하여 Suricata 탐지 규칙을 자동으로 생성한다. 실험 결과, RoBERTa 모델은 가장 낮은 오탐율(FPR)과 미탐율(FNR)을 기록하며 안정적인 탐지 성능을 보였으며, 규칙 생성 단계에서는 GPT-OSS 모델이 66.86%의 문법적 유효성을 달성하여 즉시 배포 가능한 수준의 규칙 생성 가능성을 입증하였다. 본 연구는 탐지부터 대응 규칙 생성까지의 과정을 자동화함으로써, 보안 운영의 효율성을 제고하고 신규 위협에 대한 대응 속도를 획기적으로 단축할 수 있는 실질적인 방안을 제시한다.
more목차
제1장 서론 1
제2장 관련 연구 3
제1절 기존 침입 탐지 연구 동향 3
제2절 Stacked Sparse Autoencoder-DeepCNN 기반 침입 탐지 연구 3
제3절 OB-IDS: Optimized BERT-based Intrusion Detection System 3
제4절 LLM 기반 이상 트래픽 탐지 및 규칙 자동화 연구의 필요성 4
제3장 연구 방법론 5
제1절 데이터셋 5
제2절 이상 트래픽 분류를 위해 사용한 지도학습 기반 BERT 계열 모델 8
1. BERT 8
2. RoBERTa 9
3. DeBERTa 9
제3절 탐지된 이상 트래픽으로부터 규칙 생성을 위한 LLM 기반 모델 9
1. GPT 기반 모델 9
2. LLaMA 기반 모델 10
제4절 프롬프트 설계 및 규칙 생성 10
제5절 지도 미세조정(SFT)을 위한 데이터셋 구축 및 학습 11
제6절 성능 평가 지표 11
네트워크 보안 관점에서의 지표 해석 13
제4장 실험 결과 및 분석 14
제1절 지도학습 기반 이상 트래픽 분류 결과 14
제2절 LLM 기반 탐지 규칙 자동 생성 결과 16
제3절 종합 분석 18
제5장 결론 20
참고문헌 21
Abstract 23

