검색 상세

오토인코더 이상 탐지 알고리즘의 성능 비교

A Comparative Evaluation of AutoEncoder Anomaly Detection Algorithms

초록/요약

본 논문의 목적은 비지도 학습을 주장하는 기존의 이상 탐지 방법들의 주요 가정인 정상 데이터로만 학습 데이터셋을 구성하는 것이, 개별 데이터의 라벨 정보를 활용할 수 없다는 근본적인 비지도 학습의 가정과 모순됨을 지적하고 학습 데이터셋에 포함된 소수의 비정상 데이터가 모델 학습에 끼치는 영향을 비교, 분석하여 실제 비지도 학습 환경에서 적용할 수 있는 오토인코더 기반의 이상 탐지 방법을 제시하는 것이다. 이를 위해 본 연구에서는 범용 데이터셋을 이용하여 정상 데이터만 학습 데이터에 포함되는 준지도 학습 환경과 라벨 정보를 활용할 수 없어 정상 데이터와 비정상 데이터가 혼재된 비지도 학습 환경을 구성하였다. 이후 학습 데이터에 포함된 비정상 데이터의 비율에 따른 오토인코더 기반의 이상 탐지 모델의 성능을 비교하는 실험을 진행하였으며 또한, 오토인코더 기반의 이상 탐지 모델의 학습 과정에서 정상 데이터와 비정상 데이터 학습 차이를 비교하는 실험을 진행하였다. 본 연구에서는 데이터의 구조적 특성에 맞는 인공 신경망, 데이터의 일반적인 특징을 학습할 수 있는 제약과 정상 데이터와 비정상 데이터의 학습 속도 차이를 이용하면 비지도 이상 탐지 모델이 준지도 학습 방식의 이상 탐지 모델에 준하는 성능을 가질 수 있음을 밝혀냈다.

more

초록/요약

The purpose of this paper is to point out that constructing a training dataset with only normal data, which is the main assumption of existing anomaly detection methods claiming unsupervised learning, contradicts the fundamental assumption of unsupervised learning that label information of individual data cannot be utilized. It is to present an autoencoder based anomaly detection method that can be applied in an actual unsupervised learning environment by comparing and analyzing the effect of a small number of abnormal data included in the training dataset on model learning. To this end, in this study, a semi-supervised learning environment in which only normal data is included in the training data and an unsupervised learning environment in which normal data and abnormal data are mixed because label information cannot be used are used by using universal datasets such as the MNIST dataset and the ECG dataset. was composed. Afterwards, an experiment was conducted to compare the performance of the autoencoder based anomaly detection model according to the ratio of abnormal data included in the training data. In addition, during the learning process of the autoencoder based anomaly detection model, the learning difference between normal data and abnormal data was compared. An experiment was conducted. In this study, an unsupervised anomaly detection model can be compared to a semi-supervised anomaly detection model by using an artificial neural network suitable for the structural characteristics of data, constraints that can learn general characteristics of data, and the difference in learning speed between normal and abnormal data. It was found that similar performance can be obtained.

more

목차

제 1장 서론 1
제 1절 연구 배경 1
제 2절 연구 목적 2

제 2장 관련 연구 5
제 1절 데이터 불균형 분류와 이상탐지 5
1. 데이터 불균형 분류 문제 5
2. 이상 탐지 6
제 2절 오토인코더 8
1. 오토인코더 개요 8
2. 디노이징 오토인코더 개요 10
3. 변이형 오토인코더 개요 11
4. 오토인코더 기반의 이상 탐지 13
제 3절 딥러닝 기반의 이상 탐지 방법 사례 14
제 4절 이론적 배경 14
1. 역전파(BackPropagation) 알고리즘 14
2. 딥러닝 기반의 이상 탐지 모델의 손실 함수 15

제 3장 실험 방법 16
제 1절. 실험 데이터셋 16
1. MNIST 데이터셋 16
2. ECG 5000 데이터셋 18
제 2절. 실험 목적 및 데이터셋 구성 19
1. 실험 1: 학습 데이터에 포함된 비정상 데이터의 비율에 따른 딥러닝 이상 탐지 모델의 성능 평가 19
2. 실험 2: 정상 데이터와 비정상 데이터에 대한 딥러닝 이상 탐지 모델의 학습 차이 21
제 3절. 모델링 21
1. MLP 오토인코더 22
2. CNN 오토인코더 22
3. MLP 디노이징 오토인코더 23
4. CNN 디노이징 오토인코더 24
5. MLP 변이형 오토인코더 24
제 4절. 모델 평가 지표 25

제 4장. 실험 결과 27
제 1절. 실험 1 결과 27
제 2절. 실험 2 결과 40

제 5장. 결론 46

참고 문헌 48

more