검색 상세

전이학습을 활용한 개인신용평가 모델링

초록/요약

개인신용평가 모형은 금융소비자의 채무 불이행 확률을 예측하는 모형으로 개인 정보 데이터와 금융 거래 관련한 데이터 등을 통해서 학습한다. 신용 평가를 위한 데이터에서 채무 불이행 클래스는 소수이므로 학습할 때 지급 이행 데이터에 과적합 위험이 존재한다. 그리고 금융 산업에서는 감독과 규제 이슈 때문에 모형의 해석 가능성이 필요하다. 그러므로 개인신용평가 모델링에서는 불균형 데이터 문제를 완화하고, 모델 설명력을 높이는 것이 중요하다. 본 연구에서는 불균형 데이터 처리 방법인 SMOTE를 통해서 소수 데이터를 증강시키고, 정형 데이터에 적합한 딥러닝 모형인 TabNet과 전이학습을 활용하여 신용평가 모델을 고도화하고 특성 중요도를 보이면서 해석 가능성을 높였다. SMOTE와 TabNet의 전이학습 성능을 비교하기 위해서 기본 TabNet 모형, SMOTE를 추가한 TabNet 모형, 전이학습을 추가한 TabNet 모형, 마지막으로 SMOTE와 전이학습을 모두 수행한 TabNet 모형으로 4가지 모형의 분류 성능을 비교하였다. 분류 성능 평가 지표로는 AUROC, AUPRC, Balanced Accuracy, Accuracy, F1-score 5가지 측도를 사용하였다. 연구 결과 첫 번째 데이터 학습 시에는 pre-trained TabNet 모형과, SMOTE & pre-trained TabNet 모형이 좋은 성능을 보였고, 두 번째 데이터에서는 모든 분류 성능 지표에서 SMOTE & pre-trained TabNet 모형이 뛰어났다.

more

초록/요약

The credit scoring model evaluates creditworthiness of a loan applicant by estimating the probability of default. The model learns through historical personal data and transaction data. There are two problems when building a credit scoring model. First, In the data for credit evaluation, the default class is a minority. Therefore, there is a risk of overfitting the majority class when learning. Second, In the financial industry, the interpretability of the model is necessary due to supervisory and regulatory issues. Therefore, in consumer credit scoring modeling, it is important to alleviate the imbalance data problem and increase model interpretability. In this study, the minority class is over-sampled through SMOTE, an imbalance data processing method. Furthermore, the credit scoring model is advanced by utilizing the transfer learning of TabNet, a deep learning model suitable for table data, and the interpretability is improved by showing feature importance. To compare the classification performance, four models are compared with the basic TabNet model, the TabNet model with SMOTE, the TabNet model with transfer learning, and finally, the TabNet model with both SMOTE and transfer learning. As the classification performance evaluation indicators, five measures are used: AUROC, AUPRC, Balanced Accuracy, Accuracy, and F1-score. As a result of the study, the pre-trained TabNet model and the pre-trained TabNet model with SMOTE show good performance when learning HELOC data. In the UCI data, the pre-trained TabNet model with SMOTE is excellent in all classification performance indicators.

more

목차

I. 서론 1
II. 선행연구 2
III. 연구방법 3
A. 데이터 3
1. HELOC 3
2. UCI 8
B. 불균형 데이터 처리 - SMOTE 11
C. 모델 - TabNet 12
IV. 연구결과 15
A. 분류 모형 평가 지표 15
B. HELOC 결과 비교 16
C. UCI 결과 비교 19
V. 결론 22
VI. 참고문헌 23

more