클러스터링 및 특성공학에 기반한 비지도 네트워크 침입 탐지를 위한 성능 개선 연구
- 주제(키워드) K-평균 , 가우시안 혼합 모델 , 베이지안 가우시안 혼합 모델 , 독립 성분 분석 , 비음수 행렬 분해 , 상호 정보 , 오토인코더 , 주성분 분석 , 클러스터링 모델 , 특성 선택 , 특성 추출 , 비지도 학습
- 주제(DDC) 005.8
- 발행기관 아주대학교 정보통신대학원
- 지도교수 김강석
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 정보통신대학원 사이버보안
- 실제URI http://www.dcollection.net/handler/ajou/000000034545
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
사물인터넷(IoT, Internet of Things)은 인공지능(AI, Artificial Intelligence)과의 융합을 통해 다양한 산업 분야에서 빠르게 확산되고 있지만, 이에 따라 네트워크 보안 위협 또한 증가하고 있다. 이러한 환경에서 네트워크 침입 탐지 시스템(NIDS, Network Intrusion Detection System) 의 중요성은 더욱 부각되고 있다. 그러나 기존의 지도학습 기반 NIDS는 레이블이 지정된 데이터세트 를 필요로 하며, 정상 데이터와 비정상 데이터 간의 불균형이 심각한 네트워크 환경에서는 소수 클래스에 대한 분류 성능이 저하된다. 또한, 알려지지 않은 새로운 공격이 지속적으로 등장함 에 따라, 지도학습 기반 모델만으로는 이러한 문제를 효과적으로 해결하기 어렵다는 한계를 드러내 고 있다. 이에 본 연구는 이러한 지도학습 기반 NIDS의 한계를 극복하고, 사물인터넷 환경의 다양한 보안 위협에 대응하기 위해 비지도 학습 기반 접근법을 제안하였다. UNSW-NB15 데이터세트를 활용 하여 정상 트래픽 데이터만을 기반으로 클러스터링 모델인 K-means, GMM(Gaussian Mixture Model), BGM(Bayesian Gaussian Mixture)을 학습시켰으며, 필터 기반 특성 선택 기법인 MI (Mutual Information), NMF(Non-Negative Matrix Factorization), ICA(Independent Component Analysis)를 적용하였다. 또한, 비지도 학습 기반 특성 추출 기법인 PCA(Principal Component Analysis)와 AE(Autoencoder)를 활용하여 데이터의 특성을 추출하였다. 더불어 클러스터 수를 2개, 4개, 6개로 설정하여 각 모델의 성능 변화를 분석하였다. 실험 결과, 특성 공학을 적용하지 않은 상태에서 클러스터 수가 2개인 K-means의 성능은 정확도 0.704, 정밀도 0.706, 재현율 0.708로 나타났다. 한편, 가장 높은 정확도는 클러스터 수가 6개인 BGM+AE에서 0.779로 나타났고, 가장 높은 정밀도는 클러스터 수가 4개인 GMM+ICA와 BGM +ICA+PCA에서 각각 0.847로 나타났고, 가장 높은 재현율은 클러스터 수가 6개인 BGM+AE에서 0.771로 나타났다. 이를 통해 클러스터 수의 증가가 항상 성능 향상을 보장하지는 않지만, 클러스터링 모델에 적합 한 클러스터 수를 선택하고 효과적인 특성 선택 및 추출 기법을 적용함으로써 탐지 성능을 개선 할 수 있음을 확인하였다. 또한, 클러스터 수가 증가함에 따라 성능 변화의 폭이 커지는 경향 도 관찰되었다. 이러한 결과는 비지도 학습 기반 NIDS가 기존 지도학습 기반 NIDS의 한계를 극복할 수 있는 가능성을 제시한다.
more목차
제1장 서 론 1
제1절 연구 배경 1
제2절 연구 목적 2
제2장 관련 연구 4
제1절 NIDS(Network Intrusion Detection System) 4
제2절 특성 선택(Feature Selection) 4
1. MI(Mutual Information) 5
2. NMF(Non-Negative Matrix Factorization) 5
3. ICA(Independent Component Analysis) 5
제3절 특성 추출(Feature Extraction) 6
1. PCA(Principal Component Analysis) 6
2. AE(Autoencoder) 6
제4절 클러스터링 모델(Clustering Model) 7
1. K-means 7
2. GMM(Gaussian Mixture Model) 8
3. BGM(Bayesian Gaussian Mixture) 8
제3장 연구 방법 10
제1절 UNSW-NB15 데이터세트 11
제2절 데이터 전처리 12
1. One-Hot Encoding 12
2. Min-Max Scaler 12
제3절 특성 선택 12
1. MI(Mutual Information)로 선택된 상위 20개의 특성 13
2. NMF(Non-Negative Matrix Factorization)로 선택된 상위 20개의 특성 13
3. ICA(Independent Component Analysis)로 선택된 상위 20개의 특성 13
제4절 특성 추출 14
1. PCA(Principal Component Analysis)의 효과 14
2. AE(Autoencoder)의 효과 15
제5절 군집화 정의 16
제6절 특성 조합 17
제7절 클러스터링 모델 알고리즘 18
제8절 성능평가 지표 19
제4장 실험 환경 및 결과 20
제1절 실험 환경 20
제2절 실험 결과 20
1. 클러스터 수가 증가했을 때, 성능 변화를 비교 및 분석 21
2. 특성 추출을 적용하였을 때, 성능 변화를 비교 및 분석 24
3. 특성 선택을 적용하였을 때, 성능 변화를 비교 및 분석 28
4. 특성 선택 및 추출 적용하였을 때, 성능 변화를 비교 및 분석 37
5. 클러스터링 모델에 따른 성능 변화를 분석 61
제5장 결 론 66
참고 문헌 68
부 록 73