검색 상세

가속도계 기반 활동량 데이터 내 결측값 대체를 위한 딥러닝 모델 개발

초록/요약

가속도계 기반 활동량 데이터는 설문지를 통하여 수집되는 활동량 데이터보다 객관적이고 정확한 활동 특성이 반영된 데이터를 수집 할 수 있다는 장점이 있다. 그러나 대상자가 여러가지 이유로 기기를 착용하지 않는 경우 데이터에 결측 값이 포함된다. 활동량 데이터에 포함된 결측 값으로 인해 데이터 분석 시에 제한이 된다. 예를 들어, 치매 연구에서 활용하는 일주기 리듬(circadian rhythm) 지표 산출 시 필요한 연속된 데이터의 수가 감소하여 지표 산출에 제한이 된다. 본 연구에서는 활동량 데이터에 포함된 결측 값을 대체하는 오토인코더 기반 딥러닝 모델을 제안하고 기존 대체법보다 작은 오차의 대체 결과를 보이는 새로운 대체법을 제시하고자 한다. 본 연구에서는 총 3가지 가속도계 기반 활동량 데이터 셋을 연구에 활용하였다. 미국 국민건강영양조사(National health and nutritional examination survey, NHANES) 활동량 데이터 셋과 한국 국민건강영양조사(Korea national health and nutritional examination survey, KNHANES) 활동량 데이터 셋을 활용하였으며, 아주대학교 병원에서 뇌혈관질환 환자들을 대상으로 수집한 Korean chronic cerebrovascular disease oriented biobank (KCCDB) 활동량 데이터 셋을 활용하였다. 선행연구를 참고하여 30분 이상 움직임이 없는 구간을 결측 구간으로 정의하였고, 해당 기준을3가지 데이터 셋에 적용하여 결측 구간이 없는 데이터 만을 연구에 활용하였다. 또한 데이터 셋의 수집 단위를 1분 단위로 일치시켰으며(NHANES, KNHANES 데이터 셋: 1분 단위, KCCDB 데이터 셋: 10초 단위), 대상자의 활동이 가장 활발한 12시간의 데이터(오전 9시부터 오후 9시)만을 추출하여 활용하였다. 전 처리된 NHANES 데이터 셋을 학습 데이터 셋(80%)과 검증 데이터 셋(10%), 평가 데이터 셋(10%)으로 나누어 딥러닝 모델의 학습과 검증에 활용하였다. 또한 KNHANES 데이터 셋과 KCCDB 데이터 셋을 활용하여 모델의 외적 타당도(external validation)를 평가 하였다. 본 연구에서 제시한 오토인코더 기반 딥러닝 모델은 1차원 합성곱 신경망과 디노이징(denoising) 오토인코더의 두 구조로 구성이 되어있다. 1차원 합성곱 신경망은 여러 개의 필터를 이동하면서 합성곱 연산을 통해 1차원의 순차적인 데이터의 정보를 추출하는 신경망이다. 디노이징 오토인코더는 노이즈가 포함된 입력 데이터를 노이즈가 제거된 출력 데이터로 복원하는 특성을 가진 신경망 모델이다. 최종적으로 1차원 합성곱 신경망 8개 층으로 구성된 오토인코더 모델을 활용하였다. 딥러닝 모델과 대체 성능을 비교하기 위하여, 가속도계 기반 활동량 데이터의 특성을 반영한 Zero-inflated poisson log-normal (ZIPLN) 분포 기반 다중대체법과 단일대체법인 평균 대체법을 적용하였다. 성능을 평가하기 위한 지표로서 전체 데이터 셋이 아닌 대체된 활동량 값에서만 오차를 계산하는 Partial root mean squared error (PRMSE) 와 Partial mean absolute error (PMAE)를 활용하였다. NHANES 데이터 셋을 통한 대체 결과의 PRMSE를 비교한 결과, 딥러닝 모델을 통한 대체 결과의 오차는 845.11m/s2로 평균 대체법(1,157.91m/s2)과 ZIPLN 분포 기반 다중 대체법(1,259.69m/s2)을 적용한 결과보다 낮은 오차를 보였다. 외적 타당도를 평가하기 위해 적용한 KNHANES 데이터 셋(딥러닝 모델: 680.32 m/s2, 평균 대체법: 810.32 m/s2, ZIPLN 분포 기반 다중 대체법: 961.82 m/s2)과 KCCDB 데이터 셋(딥러닝 모델: 1,222.72 m/s2, 평균 대체법: 1,876.20 m/s2, ZIPLN 분포 기반 다중 대체법: 1,919.43 m/s2)에서도 딥러닝 모델의 오차가 가장 작은 결과를 확인하였다. NHANES데이터 셋을 적용하여 PMAE를 비교한 결과에서도, 딥러닝 모델을 통한 대체 결과의 오차는 463.17m/s2로 평균 대체법(585.4 m/s2)과 ZIPLN 분포 기반 다중 대체법(585.54 m/s2)보다 적용한 결과보다 낮은 오차를 확인하였다. KNHANES 데이터 셋(딥러닝 모델: 396.52m/s2, 평균 대체법: 409.32m/s2, ZIPLN 분포 기반 다중 대체법: 499.6m/s2) 과 KCCDB데이터 셋(딥러닝 모델: 884.54m/s2, 평균 대체법: 1,175.82m/s2, ZIPLN 분포 기반 다중 대체법: 1,183.61m/s2) 을 적용한 경우에도 딥러닝 모델의 오차가 가장 작음을 확인하였다. 본 연구에서는 가속도계 기반 활동량 데이터에 포함된 결측 값 대체를 위한 딥러닝 모델을 제안하였고, 기존 대체법과 비교하여 우수한 대체 성능을 보임을 확인하였다. 결측값이 포함된 가속도계 기반 활동량 데이터를 분석에 활용 가능 하도록 새로운 결측 값 대체법을 제시하는 것이 본 연구의 의의이다.

more

목차

차 례

국문요약 ⅰ
차 례 v
그림 차례 ⅶi
표 차례 x
수식 차례 xii
I. 서론 1
A. 연구 배경 및 필요성 1
1. 가속도계 기반 활동량 데이터 1
2. 결측 값으로 인한 문제점과 선행연구에서 제시한 결측 값 대체법 3
B. 연구 목적 6
Ⅱ. 연구대상 및 방법 7
A. 연구 설계 7
B. 데이터 탐색 및 수집 9
C. 데이터 전처리 11
1. 데이터 수집 단위 통일화 11
2. 데이터 셋 내 이상치 제거 13
3. 결측 구간이 없는 데이터 셋 구축 14
4. 주요 활동 구간 데이터 추출 16
5. 성능 평가를 위한 임의의 결측 구간 생성 18
6. 데이터 정규화 21
7. 대체법 적용을 위한 데이터 셋 구성 22
D. 결측 값 대체 딥러닝 모델과 대체 성능 비교를 위한 결측 값 대체법 23
1. 결측 값 대체 딥러닝 모델 23
2. 평균 대체법 29
3. Zero-inflated poisson log-normal (ZIPLN) 분포 기반 다중대체법 30
E. 성능 평가 32
1. 결측 값 대체 딥러닝 모델 32
2. 평균 대체법 32
3. Zero-inflated poisson log-normal (ZIPLN) 분포 기반 다중대체법 33
4. 성능 평가 지표 33
F. 프로그래밍 언어 36
Ⅲ. 결과 37
A. 데이터 전처리 결과 37
B. 딥러닝 모델 구조 39
C. 대체 방법론 간 대체 성능 비교 결과 41
Ⅳ. 고찰 51
Ⅴ. 결론 55
참고 문헌 56
ABSTRACT 62

more