검색 상세

영상 분류를 위한 데이터 특징 커버리지 기반 심층학습 모델 검증 기법

Deep Learning Model Validation Method Based on Data Feature Coverage for Image Classification

초록/요약

심층학습 기법은 영상 처리 분야에서 높은 성능을 입증받아 다양한 분야에서 적용되고 있다. 최근에는 학습 모델의 성능을 개선하는 것뿐만 아니라 확보된 성능에 대한 체계적인 검증 역시 중요해지고 있다. 심층학습 모델 검증은 내부의 가중치가 데이터에 의해 학습되며, 내부의 동작이 가변적으로 학습에 의해 완성되기 때문에 블랙박스 테스팅으로 볼 수 있다. 따라서 심층학습 모델의 경우, 모델의 입력 데이터에 변화를 주었을 때 확인되는 출력 레이블을 이용하여 검증을 수행하고 있다. 이러한 심층학습 모델 검증에 가장 널리 사용되는 방법으로는 홀드아웃 검증 방법, k-겹 교차 검증 방법, 부트스트랩 방법 등이 있다. 이러한 방법들은 전체 데이터를 훈련 데이터 셋과 평가 데이터 셋으로 분할하여, 훈련 데이터 셋으로 모델을 학습한 후, 평가 데이터 셋으로 학습된 모델을 검증한다. 또한, 데이터의 분할 과정에서 층화추출법을 이용하여 클래스 간의 비율을 유지할 수 있다. 하지만, 이러한 불균형의 문제는 클래스 간의 비율에만 존재하는 것이 아니며, 같은 클래스 내에서도 영상의 구도, 무늬, 색조 등과 같은 다양한 특징들의 차이가 존재할 수 있다. 이러한 특징들을 고려하지 않을 경우, 일부 특징을 보유한 데이터 셋에 편향된 검증 결과를 얻게 될 수 있다. 따라서 본 논문에서는 이러한 기존 검증 방법들을 개선하여 영상 분류를 위한 데이터 특징 커버리지 기반 심층학습 모델 검증 기법을 제안한다. 제안하는 기법은 심층학습 모델의 학습과 검증을 위한 훈련 데이터 셋과 평가 데이터 셋이 전체 데이터 셋의 특징을 얼마나 반영하고 있는지 수치로 측정할 수 있는 데이터 특징 커버리지를 제안한다. 제안하는 기법은 데이터 특징 벡터 추출, 특징 군집 생성, 데이터 특징 커버리지 기반 데이터 셋 분할로 이루어진다. 또한, 제안하는 기법의 효용성을 검증하기 위해 두 가지 방법으로 평가한다. 첫째, 오픈 데이터 셋이 제공하고 있는 훈련 데이터 셋과 평가 데이터 셋으로 학습한 모델과 본 연구에서 제안한 기법으로 분할하여 학습한 모델의 평가결과를 비교한다. 둘째, 본 연구에서 제안한 특징 군집의 효용성을 검증하기 위해 데이터 특징 커버리지가 다른 여러 데이터 셋으로 학습된 모델에 대한 평가결과를 비교한다. 실험 결과, 학습하는 데이터 셋에 따라 다르지만, 데이터 특징 커버리지가 낮을 경우 커버리지가 보장된 경우에 비해 정확도가 최대 17%까지 떨어지는 것을 확인할 수 있었다. 제안하는 기법은 전체 데이터 셋의 특징을 모두 포함하도록 커버리지를 보장하여 데이터 셋을 분할할 수 있고, 모델의 평가 결과를 생성한 특징 군집 단위로 분석할 수 있다. 결과적으로 학습된 모델의 평가 결과에 대해 특징 군집 정보를 제공함으로써, 학습된 모델이 각각의 특징들에 대해 어떠한 성능을 보여주었는지, 어떠한 특징에 취약한지, 해당 영상과 같은 특징을 가지는 영상은 어떠한 영상이 있는지와 같은 추가적인 정보를 제공할 수 있다.

more

목차

1. 서론 1
2. 관련연구 5
2.1. 기존 심층학습 모델 검증 방법 5
2.1.1. 홀드아웃 검증 방법 6
2.1.2. k-겹 교차 검증 방법 6
2.2. 소프트웨어 테스팅 기법 7
2.2.1. 화이트박스 테스팅 7
2.2.2. 블랙박스 테스팅 8
2.3. 영상 데이터 특징 추출방법 8
2.4. 심층학습 모델 커버리지 테스팅 9
3. 데이터 특징 커버리지 기반 학습 모델 검증 기법 11
3.1. 영상 데이터 특징 벡터 추출 11
3.2. k-평균 군집화 기반 특징 군집 생성 13
3.3. 데이터 특징 커버리지 기반 데이터 셋 분할 14
4. 데이터 특징 커버리지 기반 모델 학습 및 성능 평가 18
4.1. 오픈 영상 데이터 셋 학습 모델 성능 평가 18
4.1.1. 오픈 영상 데이터 셋 특징 추출 21
4.1.2. 오픈 영상 데이터 셋 특징 군집 생성 22
4.1.3. 실험 결과 1 – 기존 분할 데이터 셋 이용 25
4.1.4. 실험 결과 2 – 데이터 특징 커버리지 조정 31
4.2. 의료 영상 데이터 셋 학습 모델 성능 평가 37
4.2.1. 캡슐내시경 영상 데이터 특징 추출 38
4.2.2. 캡슐내시경 영상 데이터 특징 군집 생성 42
4.2.3. 캡슐내시경 영상 데이터 셋 실험 결과 42
4.3. 실험 결과 요약 및 활용 방안 44
5. 결론 47
<참고문헌> 48

more