검색 상세

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델

A Hybrid SVM Classifier for Imbalanced Data

  • 발행기관 亞洲大學校 大學院
  • 지도교수 李在植
  • 발행년도 2005
  • 학위수여년월 2005. 8
  • 학위명 석사
  • 학과 및 전공 경영대학원 경영정보학과
  • 본문언어 한국어

초록/요약

어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 즉, 소수 클래스의 적중률이 다수 클래스의 적중률에 비해서 매우 낮게 나타나는 것이다. 본 연구에서는 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine(SVM), 인공신경망 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델이다. 개발된 하이브리드 모델의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터를 사용하여 평가하였다. 하이브리드 모델의 민감도는 94.47%이었고, 특이도는 70.41%이었다. 동일 데이터에 대한 SVM 모델의 민감도는 94.65%이었고, 특이도는 66.20%이었다. 그러므로 SVM 단일 기법만을 사용한 모델에 비해서, 본 연구에서 개발된 하이브리드 모델이 다수 클래스의 적중률은 유지하면서 소수 클래스의 적중률을 향상시키는 성능을 보였다.

more

초록/요약

We call a data set where the number of records belonging to a certain class far outnumbers the number of records belonging the other class, 'imbalanced data set'. Classifiers often perform poorly on imbalanced data sets. In other words. the hit ratio of minority class is very low in comparison with that of majority class. In this research, we developed a classifier that improves the hit ratio of minority class while maintaining the hit ratio of majority class. Our classifier is a hybrid model of such techniques as support vector machine(SVM), artificial neural network and decision tree. The performance of our hybrid model was tested on 'Churn Data' provided by UCI Machine Learning Repository. The specificity of our model was 70.41% while that of SVM model was 66.20%, and the sensitivity of our model was 94.47% while that of SVM model was 94.65%. Therefore, compared to the performance of SVM model, our hybrid model improves the hit ratio of minority class while maintaining the hit ratio of majority class.

more

목차

목차
제 1 장 서론 = 1
제 1 절 연구의 배경 및 목적 = 1
제 2 절 연구의 방법 = 2
제 3 절 논문의 구성 = 3
제 2 장 이론적 배경 = 4
제 1 절 불균형 데이터 (Imbalanced Data) 집합 = 4
제 2 절 SVM (Support Vector Machines) = 5
제 3 절 인공신경망(Artificial Neural Network) = 8
제 4 절 의사결정나무(Decision Tree) = 11
제 3 장 연구 분석 = 14
제 1 절 분류기법의 적용 = 14
1. SVM = 14
2. ANN = 14
3. ROC 분석 = 15
제 2 절 SVM과 ANN의 성능 비교 = 17
1. Churn 데이터 = 17
1.1 Churn 데이터의 불균형 데이터 집합으로 학습한 예측 모델 = 18
1.2 Churn 데이터의 균형 데이터 집합으로 학습한 예측 모델 = 20
2. Credit 데이터 = 22
2.1 Credit 데이터의 균형 데이터 집합으로 학습한 예측 모델 = 22
2.2 Credit 데이터의 불균형 데이터 집합으로 학습한 예측 모델 = 24
3. 이탈고객 데이터 = 26
3.1 이탈고객 데이터의 균형 데이터 집합으로 학습한 예측 모델 = 26
3.2 이탈고객 데이터의 불균형 데이터 집합으로 학습한 예측 모델 = 28
4. SVM과 ANN의 성능 결과 요약 = 30
제 4 장 데이터 분석 및 실험 = 32
제 1 절 데이터 분석 = 32
제 2 절 학습 및 테스트를 위한 자료 선정 = 33
제 3 절 샘플링 작업 = 34
제 4 절 이탈고객 예측 모델의 설계 = 36
1. SVM 구조 설계 = 36
2. ANN 구조 설계 = 36
3. 결합모델 설계 = 37
제 5 절 기본모델의 선택 = 39
제 6 절 판별모델의 설계 = 40
1. 판별모델 1 = 40
2. 판별모델 2 (W_DT 규칙) = 41
3. 판별모델 2 (S_DT 규칙) = 43
4. 판별모델 2의 비교 및 선정 = 46
제 7 절 결합모델의 성능 평가 = 49
제 5 장 결론 = 50
제 1 절 연구 결과 및 시사점 = 50
제 2 절 연구의 한계점 및 향후 연구 과제 = 51
참고문헌 = 52

more