검색 상세

국민건강보험공단 데이터를 이용한 네트워크 이론 기반 질병 패턴 분석

초록/요약

현재 주요 병원 및 공공기관에서 의료 빅데이터의 규모와 다양성이 증가함에 따라 많은 연구자들이 빅 데이터 기반 의학 연구를 활발히 진행하고 있다. 오랜 기간 동안 유전자 데이터 및 단백질 데이터와 같은 생물학 기반 빅 데이터를 활용한 질병 네트워크 구축은 많았지만 임상 데이터 기반으로 질병 네트워크 구축을 한 사례는 적다. 뿐만 아니라 임상 데이터 기반으로 네트워크를 구축했더라도 데이터의 불완전성, 국내 환자에 대입하기 힘든 해외 데이터, 네트워크 구축 시 중요한 위험 인자 배제 등 여러 가지 한계점이 존재했다. 그래서 본 연구에서는 국민건강보험공단에서 제공하는 표본연구 데이터베이스를 활용하고 질병 발병에 중요한 원인이 되는 위험 인자들을 보정하여 국내 맞춤의 신뢰성 있는 질병 네트워크를 제공하고 더 나아가 질병 네트워크의 구조적 특징을 분석하여 질병의 패턴 및 중요성 정보를 제시하고자 한다. 선행질병이 후행질병 발병의 위험 인자로써 영향을 준다는 전제하에 국민건강보험공단 표본연구 데이터베이스의 2002년부터 2013년까지의 환자들의 발병 순차 데이터를 활용하여 질병간의 연결성을 분석하였다. 많은 질병의 발병 위험 인자인 성별, 나이 그리고 방문 시기를 정확 매칭을 통해 보정하고 피셔의 정확성 검정을 통해 유의성 검정을 거쳤다. 네트워크의 구조적 특징 및 질병의 역할을 분석하기 위해 커뮤니티 탐지와 중심성 계산을 진행하였다. 그 결과, 839개 질병과 2,757개의 연결성으로 이루어진 질병 네트워크를 구축하였다. 뇌전증, 무과립구증과 같이 여러 질병의 발병의 원인 또는 결과가 되는 것으로 밝혀진 질병들이 네트워크 상에서 많은 연결성을 가지고 있었으며 서로 영향을 많이 주는 것으로 알려진 정신 및 행동 장애 질병들 경우 네트워크 상에서도 서로 많이 연결된 것을 확인할 수 있었다. 5개의 중심성을 계산한 결과 파종성 혈관내응고가 모든 중심성에서 상위에 위치해있었고 통합 중심성에서도 가장 높은 것으로 나왔다. 커뮤니티 탐지 결과 4개의 대표 커뮤니티들을 발견할 수 있었고 각 대표 커뮤니티들은 질병 분류, 성별, 나이와 같은 요인들로 군집화 된 것이 아니라 보험 청구 데이터 분석에서 나온 질병 패턴 기반으로 구성된 것을 확인할 수 있었다. 국민건강보험공단 표본연구 데이터베이스 기반으로 질병 네트워크를 구축함으로써 기존 알려진 질병간의 연결성 또는 질병의 특성을 재확인하고 더 나아가 질병의 군집화 및 패턴을 다각도로 제공함으로써 임상의에게 진단에 대한 도움을 줄 도구로써 활용될 것으로 기대된다.

more

목차

I. 서 론 1
A. 연구의 배경 및 필요성 1
1. 네트워크 과학 1
2. 네트워크 의학 3
(A) 유전자 네트워크 3
(B) 단백질 네트워크 4
(C) 임상 네트워크 5
B. 연구의 목적 6
II. 연구대상 및 방법 7
A. 분석 대상 데이터 7
B. 한국표준질병사인분류 기반 질병 정의 9
C. 질병-질병 연결성 10
1. 질병간의 연결성 정의 및 빈도 10
2. 위험 인자 보정 11
3. 질병간의 연결성 유의성 검정 12
D. 질병 네트워크 구축 14
E. 질병 중심성 분석 15
1. 연결 중심성 15
2. 고유벡터 중심성 16
3. 근접 중심성 17
4. 매개 중심성 18
5. 통합 중심성 19
F. 질병 네트워크 커뮤니티 탐지 20
G. 프로그래밍 언어 22
III. 결과 23
A. 국민건강보험공단 표본연구 데이터베이스 분석 23
B. 질병 네트워크 27
C. 기존 진단 네트워크와 비교 33
D. 질병 네트워크 기반 질병 중요도 34
E. 질병 네트워크의 대표 커뮤니티 37
1. 정신질환 관련 커뮤니티 38
2. 호흡기질환 관련 커뮤니티 43
3. 암 관련 커뮤니티 46
4. 뇌질환 관련 커뮤니티 51
IV. 고 찰 55
V. 결 론 58
참고문헌 59
ABSTRACT 64

more

목차

그림 1. 노드의 진입 차수와 출력 차수 예시 2
그림 2. 환자 발병 기록 선택편의 최소화 예시 8
그림 3. 선행질병 발병군과 비발병군 정확 매칭 과정 11
그림 4. 선행질병 → 후행질병 연결성의 이차원 분할표 13
그림 5. 중심성 종류별 중요도가 높은 노드 예시 19
그림 6. 대표커뮤니티1에 신생물 그룹 질병 분포 유의성 검정을 위한 이차원 분할표 21
그림 7. 질병 네트워크 28
그림 8. 파종성혈관내응[탈피브린증후군]과 연결된 질병 모음 34
그림 9. 질병 네트워크 내 4개의 대표 커뮤니티 37
그림 10. 정신질환 관련 커뮤니티 39
그림 11. 호흡기질환 관련 커뮤니티 43
그림 12. 암 관련 커뮤니티 47
그림 13. 뇌질환 관련 커뮤니티 52

more

목차

표 1. 국민건강보험공단 표본연구 데이터베이스에서 사용한 테이블 및 열 정보 8
표 2. 국민건강보험공단 표본연구 데이터 변수별 수치 24
표 3. 한국표준질병·사인분류 대분류별 평균 전체 차수, 진출 차수 그리고 출력 차수 29
표 4. 상대위험도 상위 20 연결성 및 빈도 상위 20 연결성 30
표 5. 중심성별 상위 20개 질병 35
표 6. 정신질환 관련 커뮤니티에 속한 질병 정보 39
표 7. 호흡기질환 관련 커뮤니티에 속한 질병 정보 44
표 8. 암 관련 커뮤니티에 속한 질병 정보 48
표 9. 뇌 관련 장애 커뮤니티에 속한 질병 정보 53

more

목차

수식 1 15
수식 2 16
수식 3 17
수식 4 18
수식 5 19

more