검색 상세

CTGAN 및 TabNet 기법을 활용한 불균형 정형 데이터 이진분류 모델링 개발

Development of Imbalanced tabular data binary classification modeling using CTGAN and TabNet techniques

초록/요약

불균형 정형 데이터(Imbalanced Tabular data)란 관계형 데이터베이스 테이블에 담을 수 있는 데이터의 클래스 간 관측치가 현저하게 차이나는 데이터를 뜻한다. 이러한 불균형 데이터는 학습 시 다수 클래스의 예측에 편향되어 예측 정확도가 낮아지는 문제가 발생한다. 또한 딥러닝을 이용한 모델의 예측률이 우수하지만 정형 데이터에서의 연구는 상대적으로 저조한 편으로 현재까지 의사결정 나무 기반 앙상블 모델을 선호하는 경우가 많다. 그러나 최근 정형 데이터에서도 기존 모델의 성능을 개선한 딥러닝 알고리즘이 증가하고 있다. 본 논문에서 불균형 정형 데이터 이진 분류 성능의 향상을 위한 딥러닝 혼합 모델을 제안한다. 클래스 분포가 균일한 상태의 데이터를 만들기 위해 생성적 적대 신경망을 기반한 CTGAN 을 활용해 소수 클래스의 데이터를 증강하고 의사결정 나무 기반의 이점을 가진 TabNet 과 결합한 분류모델과 원본 데이터에 TabNet 을 적용한 결과와 기존 데이터 샘플링 중 오버 샘플링 기법인 SMOTE(Synthetic Minority Over-sampling Technique)과 TabNet 을 접목한 분류모델과 비교 분석한다. 또한 불균형의 비율이 다른 실제 데이터셋을 적용하여 성능을 비교하여 제안 방법론의 성능이 효과적임을 증명한다.

more

목차

제 1 장 서론 1
제 2 장 연구 방법론 4
제 1 절 불균형 데이터 4
제 2 절 오버 샘플링 4
1. SMOTE (Synthetic Minority Over-sampling Technique) 5
제 3 절 생성적 적대 신경망 6
1. GAN (Generative Adversarial Networks) 6
2. CGAN (Conditional GAN) 7
3. WGAN (Wasserstein GAN) 8
4. WGAN-GP (Wasserstein GAN with Gradient Penalty) 8
5. CTGAN (Conditional Tabular GAN) 9
제 4 절 심층 데이터 학습 아키텍처 10
1. TabNet (Attentive Interpretable Tabular Learning) 10
제 3 장 제안 방법론 15
제 1 절 CTGAN 기반 TabNet 모델 15
제 2 절 구현 세부사항 17
제 3 절 분류 성능 평가 지표 18
제 4 장 제안한 방법론 적용 20
제 1 절 데이터셋 20
제 2 절 데이터 분석 결과 21
제 5 장 결론 27
참고문헌 28

more