검색 상세

의사결정나무분석을 위한 생키다이어그램 기반 시각화 연구

Visualization Design based on Sankey Diagram for Decision Tree Analysis

초록/요약

의사결정나무는 데이터마이닝에서 가장 많이 사용하는 예측모델 중 하나로 최근 의료데이터분석에 많이 활용되고 있다. 의사결정나무로 의료데이터를 분석하면 데이터를 분류하여 예측을 할 수 있을 뿐만 아니라 예측변수의 사용으로 예측할때 고려해야할 변수의 수를 축소 할 수 있기 때문이다. 기존의 의사결정나무 시각화들은 중요한 리프노드를 찾기 위해 개체의 수와 목표변수의 비율을 나타내는 것을 중점으로 시각화 되어 있다. 그러나 의료데이터를 분석한 의사결정나무는 변수의 파악이 중요하기 때문에 추가적으로 예측변수의 정보가 필요로 해졌다. 따라서 본 연구에서는 의사결정나무분석 시각화에 필요한 3가지 요소를 정리하고 이를 시각적으로 보완하는 시각화를 제안 하고자 한다. 본 연구에서 사용한 데이터는 노인임상연구센터(CREDOS: Clinical Research Center for Dementia of South Korea)에서 구축한 37개 병원에서 내원한 환자, 전체 21,094 명의 치매질병관련 검사항목 (486항목)의 진료기록을 포함하고 있다. 시각화는 생키다이어그램을 활용하여 D3.js로 개발되었고 기본화면인 메인뷰와 인터렉션과 부수적인 정보를 나타내는 서브뷰들로 이루어져 있다. 본 연구에서는 기존의 시각화보다 예측변수에 대한 설명이 강조된 시각화를 개발하여 시각화를 통해 중요한 변수를 파악할 수 있게 한다. 개발한 시각화를 사용자 실험을 통해 검증하고 평가하였다. 사용자 실험에서는 예측변수와 깊이를 판단하는 반응속도가 증진된 것을 확인 할 수 있었으며 만족도는 모든 문항에서 매우 높게 나왔다. 본 논문에서는 서로 다른 관점을 통해, 시각화적인 요소와 데이터 마이닝적인 요소를 모두 향상시켜 트리 시각화를 간략화하고 예측 변수를 정보로 제공하여 분별력을 높인 것에서 본 시각화의 의의를 확인할 수 있었다.

more

목차

I. 서론 1
A. 연구 배경 1
B. 연구 목적 및 방법 3
II. 사전 연구 6
A. 의사결정나무 시각화의 사전 연구 분석 6
B. 생키다이어그램의 사전 연구 분석 15
1. 생키다이어그램 시각화의 정의 17
2. 생키다이어그램의 특징 17
III. 시각화의 목표 설정 19
A. 의사결정나무의 시각화 요소 파악 19
1. 예측 변수 20
2. 이익도표(gains chart) 20
3. 깊이(depth) 21
B. 데이터 분석가의 요구 사항 정리 22
C. 디자인 가이드라인 도출 23
IV. 시각화 설계 연구 및 개발(Visualization Design Study) 26
A. 시각화 형태 설계 27
1. 예측 변수 27
2. 이익도표 29
3. 깊이 30
4. 시각화 상호작용 31
V. 사용자 실험 및 평가 35
A. 실험 방법 35
1. 실험 대상과 이론 35
2. 실험 측정 도구 35
B. 실험 절차 39
C. 연구 결과 39
1. 정확도 증진 효과 검증 39
2. 반응속도 증진 효과 검증 41
3. 만족도 평가 43
VI. 결론 48
VII. 참고문헌 50
Abstract 54

more