검색 상세

준지도 학습 모델의 예측 정확도 향상을 위한 가상 레이블 생성 기법

Pseudo labeling method for improving prediction accuracy of Semi Supervised Learning

초록/요약

정보화 시대가 도래함에 따라 우리 주위에는 많은 양의 데이터가 생성되고 있다. 기계학습 분야에서는 데이터를 “labeled” (label이 있는 데이터)와 “unlabeled”(label이 없는 데이터)로 분류하는데 레이블이 있는 데이터는 얻는데 걸리는 시간이 오래 걸리며, 값이 비싸다는 문제점이 있다. 따라서 레이블이 없는 데이터가 많은 지금 이러한 데이터를 분류하는 것이 큰 쟁점이다. 레이블이 있는 데이터를 얻는 어려움 때문에 최근 연구들에서 준지도학습 (Semi-Supervised Learning, SSL)이 사용되기 시작했다. SSL은 레이블이 있는 데이터뿐만 아니라 구하기 훨씬 더 쉬운 레이블이 없는 데이터까지 사용해서 학습을 하기 때문이다. 그러나 SSL 모델도 다른 기계학습 모델들처럼 레이블이 있는 데이터의 수가 증가할수록 성능이 향상된다. 따라서 본 연구에서는 가상 레이블(pseudo-label)을 레이블이 없는 데이터에 부여하여 레이블이 있는 것처럼 사용하는 방법을 제안한다. 제안하는 모델인 “SSL Co-training”은 SSL을 기반으로 한 모델이다. SSL Co-training은 세 개의 다른 실험을 통해 그 성능을 검증하였으며 실험에 사용된 데이터는 University of California at Irvine에서 제공하는 7개의 서로 다른 벤치마킹 데이터, 국민 건강보험심사평가원에서 제공하는 의료사기 데이터 그리고 Surveillance Epidemiology and End Results(SEER) 유방암 데이터이다. 제안하는 모델은 최근 기계학습 분야에서 가장 많이 사용되는 Artificial Neural Network (ANN), Support Vector Machine (SVM) 그리고 SSL에 비하여 더 좋은 성능을 보여주었다.

more

목차

제 1 장. 서론

제 2장. 응용분야 연구배경 및 기존연구
2.1 절. 의료사기탐지
2.2 절. 유방암 생존 예측

제 3 장. 제안하는 방법론
3.1 절. 배경이론: 준지도 학습
3.2 절. 제안방법: SSL Co-training

제 4 장. 실험 결과
4.1 절. 7개의 벤치마킹 데이터
4.1.1 데이터 및 실험 설정
4.1.2 분석 및 결과
4.2 절. 응용1: 의료사기탐지
4.2.1 데이터 및 실험 설정
4.2.2 분석 및 결과
4.3 절. 응용2: 유방암 생존 예측
4.3.1 데이터 및 실험 설정
4.3.2 분석 및 결과

제 5 장. 결론 및 향후 연구

제 6 장. 참고문헌

more