검색 상세

효율적인 이상 탐지를 위한 차원축소와 오버샘플링 방법 비교

Comparison of Dimensional Reduction and Oversampling Methods for Efficient Anomaly Detection

초록/요약

온라인상에서 유통되는 정보의 양이 증가함에 따라 이를 탈취하기 위한 공격 시도 역시 증가하고 있다. 따라서 연구자들은 이러한 공격으로부터 이용자들의 데이터를 보호하기 위한 연구를 하고 있다. 그중 하나가 머신 러닝 및 딥 러닝 기술을 활용한 네트워크 이상 탐지이다. 이 방법은 기존의 시그니처 탐지 방식이 새로운 공격을 탐지하는 데 취약하다는 단점을 보완하는 방법이다. 본 연구 역시 머신 러닝 및 딥 러닝을 활용한 네트워크 이상 탐지에 관한 것이다. 본 연구에서는 차원 축소와 오버 샘플링이 모델의 성능에 어떠한 영향을 주는지 살펴보았다. 차원 축소 기법 중 하나인 주성분 분석을 적용하여 정확도, 정밀도, 재현율, F1 점수, AUC 점수 외에도 탐지 시간 단축에 어떠한 영향을 분석하였다. 실험 결과 뚜렷한 패턴을 발견할 수는 없었지만, SVM과 KNN이 차원이 축소로 인한 탐지 시간 단축 효과가 가장 크다는 것을 확인했다. 특히 SVM의 경우 차원이 축소됨에 따라 F1 점수나 AUC 점수가 증가하는 양상을 보여 차원 축소의 긍정적인 영향을 가장 많이 받는다는 것을 확인할 수 있었다. 하지만 2차원으로 축소했을 때는 오히려 성능이 떨어지는 결과를 보였다. 오버 샘플링 연구에서는 불균형한 데이터 세트인 NSL-KDD를 SMOTE로 클래스별 샘플 수를 동일하게 만들었다. 그 후 소수 클래스 U2R, R2L의 탐지율의 변화를 중점적으로 살펴보았다. 실험 결과 오버 샘플링이 U2R과 R2L에 대한 탐지율이 높이는 데 효과가 있다는 것을 확인했다. 특히 트리 계열인 RF와 XGBoost가 다른 분류 모델에 비해 오버 샘플링 이후의 성능이 상대적으로 큰 폭으로 향상하였다. 하지만 KNN, DNN, CNN의 경우 오버 샘플링 이후 오히려 소수 클래스에 대한 탐지율이 떨어지는 결과를 보이기도 했다. 차원 축소와 마찬가지로 알고리즘별로 다른 변화 양상을 보였다. 따라서 이 두 기술을 적용할 때는 알고리즘의 특성을 자세히 파악하여 최적의 설정값을 찾는 것이 중요하다는 것을 알 수 있다.

more

초록/요약

As the amount of information circulated online increases, attacks to steal it also increase. Therefore, researchers are researching to protect users' data from these attacks. One is network anomaly detection using machine learning and deep learning techniques. This method compensates for the weakness of existing signature detection methods in detecting new attacks. This study is also about network anomaly detection using machine learning and deep learning. This study examined how dimensionality reduction and oversampling affect the model's performance. First, PCA, one of the dimension reduction techniques, was applied to test how it affects the detection time reduction. As a result of the experiment, no clear pattern could be found. However, it was confirmed that SVM and KNN had the most significant effect on reducing the detection time due to dimensionality reduction. However, the time increased when it was reduced to two dimensions. In the oversampling study, NSL-KDD, an unbalanced data set, was made equal in the number of samples per class by SMOTE. After that, the changes in the F1 score of the minority classes U2R and R2L were examined. Experimental results confirm that oversampling effectively increases the F1 scores for U2R and R2L. In particular, tree-based RF and XGBoost showed a relatively significant improvement in performance after oversampling compared to other classification models. However, in the case of KNN, DNN, and CNN, the detection performance for minority classes was relatively low after oversampling. The effect of oversampling also showed different patterns of change for each algorithm. Therefore, when applying these two technologies, it was confirmed that it is essential to find the optimal setting by understanding the characteristics of the algorithm in detail.

more

목차

제1장 서 론 1

제2장 배경 지식 및 관련 연구 3
제1절 네트워크 침입 탐지 시스템 3
제2절 머신 러닝 기반 이상 탐지 4
1. 오버 샘플링(Over Sampling) 4
2. 특성 선택(Feature Selection) 4
3. 서포트 벡터 머신(SVM: Support Vector Machine) 6
4. 랜덤 포레스트(RF: Random Forest) 7
5. XGBoost 8
6. k-최근접 이웃(KNN: K-Nearest Neighbor) 8
제3절 딥 러닝 기반 이상 탐지 9
1. 심층 신경망(DNN: Deep Neural Networks) 9
2. 합성곱 신경망(CNN: Convolutional Neural Networks) 10

제3장 연구 방법 11
제1절 데이터 세트 11
제2절 오버 샘플링과 차원 축소 11
제3절 분류 모델 13

제4장 실험 및 결과 분석 15
제1절 실험 개요 15
1. 실험 구성 15
2. 실험 환경 16
3. 성능 평가 지표 16
제2절 실험 내용 19
1. 실험 데이터 분석 및 전처리 19
2. 주성분 분석 24
3. SMOTE 24
4. 분류 모델 훈련 26
제3절 실험 결과 분석 27
1. 차원 변화에 따른 성능 분석 27
2. 오버 샘플링에 따른 성능 변화 38

제5장 결론 42

참고 문헌 44

more