검색 상세

주요 5대암 생존율 요인별 예측 시스템 개발

초록/요약

NCI(National Cancer Institute) 통계에 따르면 2012년 기준 820만 명이 암에 의해 사망하였고, 1,400만 명이 암 확진을 받았다. 또한 20년 후 암 발병 인원이 2,200만 명 까지 증가할 것이며 이에 따라 사망자도 늘어날 것이라 예측했다. 세계적으로 암을 완치하기 위한 연구가 다양하게 진행되고 있으며 대부분 임상연구를 기반하고 있다. 하지만 미국의 경우 암에 대한 연구 일환으로 암 환자들의 데이터를 1973년부터 축적하기 시작하였고, 데이터 기반 연구에 활용하기 시작하였다. 임상연구 중심적으로 연구가 진행되었던 암 연구는 질 좋은 데이터와 분석 가능한 기술이 마련됨에 따라 의료 빅데이터 분석연구와 함께 진행되는 추세로 전환되고 있다. 본 연구에서는 미국의 빅데이터인 SEER(Surveillance, Epidemiology, and End Results)데이터를 활용하여 국내 주요 5대 암인 폐암, 대장암, 유방암, 위암, 간암의 생존율을 요인 별로 분석할 것이다. 요인 별 생존율을 제공하여 환자의 특성을 치료시 전문의가 고려할 수 있고, 환자 또한 자신의 치료 방법을 선택하는데 참고할 수 있을 것이다. 분석에 사용된 데이터는 1973년부터 2012년까지 수집된 총 200만 건의 데이터이며 암 종류별 케이스 수는 위암 82,026건, 대장암 532,300건, 폐암 572,735건, 유방암 740,505건, 간암 41,771건이다. 요인 선정은 기존 연구들을 참고하여 생존율에 영향력이 높은 요인들로 암 별로 5가지에서 7가지 선정하였다. 선정된 요인들은 Age at Diagnosed, Sex, Race, Tumor Size, Grade, Surgery, Marital_Status이다. 분석기법으로는 Kaplan Meier기법을 활용한 누적생존율을 사용하였고, 이는 사건(사망)이 발생한 시점마다 구간생존율을 구하고 이들의 누적을 바탕으로 최종 누적생존율을 추정하는 방식이다. 이 기법은 요인별 생존율을 기간별로 확인하기 용이하고, 방대하고 다양한 요인의 비교 분석이 가능하다. 본 연구에서 제공하고자 하는 요인별 생존율을 도출하는데 가장 최적화된 기법이라 할 수 있다. 현재 국내 의료데이터의 경우 암 환자 데이터를 취합할 수 있는 표준서식이 준비되어 있지 않고, 개인정보보호와 같은 규범적 제약 때문에 활용하기 어려운 구조를 가지고 있다. 이번 연구는 미국의 SEER데이터를 활용하여 주요 5대 암 요인별 생존율 예측 시스템을 구현하고, 나아가 국내데이터로 확장하여 한국인에 특화된 맞춤형 의료 서비스가 실현될 수 있도록 하는데 의의가 있다.

more

목차

제1장 서론 1
연구배경 및 목적 1
제2장 기존연구 동향 2
제1절 바이오마커를 활용한 생존율 예측 시스템 2
제2절 SEER데이터를 활용한 연구 3
제3장 연구 방법 5
제1절 연구 개념도 5
제2절 데이터 설명 6
제3절 데이터정리 7
제4절 요인별 데이터 분류 9
제5절 데이터 분석 기법 11
제4장 연구 결과 13
제1절 주요 5대암 요인별 생존율 결과 13
제1항 위암 13
제2항 대장암 19
제3항 폐암 27
제4항 간암 34
제5항 유방암 41
제2절 주요 5대암 요인별 생존율 예측시스템 개발 48
제5장 향후 연구과제 51
Abstract 52
참고문헌 54

more