검색 상세

자연어 처리 기술을 활용한 병리보고서의 암진단코드 분류 알고리즘 개발

Classification of ICD-O-3 codes from pathology report using natural language processing

초록/요약

암환자수가 증가함에 따라 암등록 건수 또한 늘고 있으나 사람에 의해 처리되는 기존의 수동 분류 방법은 시간적 소모가 많아 피로도를 높인다. 본 연구는 자연어처리 기술을 활용하여 비정형화된 Pathology report내의 암진단 텍스트 정보를 추출하여 ICD-O-3 (Topography, Morphology code) 및 KCD-8 code를 지도 학습을 기반으로 하여 분류하는 모델을 개발하는데 목적이 있다. 연구대상은 2017-2021년 아주대병원 퇴원환자 중 위암, 대장암, 유방암, 간담췌암, 갑상선암 환자군에서 수술조직병리결과가 malignant 및 in situ 인 데이터를 대상으로 하였다. 모델 개발은 2가지 접근 방식으로 수행하였다. 먼저 분화도를 포함하여 2단어 이상 또는 문장의 형태로 구성되어 있는 조직학적 소견에 대해 M-code로 분류하는 모델은 자연어 텍스트 분류에 성능이 우수한 딥러닝 모델을 이용하여 개발하였다. 원발부위와 종양의 세부 위치, side, invasion, T-staging, gross type 및 behavior 등을 종합적으로 확인하여 분류하여야되는 ICD-O-3 T-code와 KCD-8 code는 암등록 지침에 따라 Regular expression 등을 이용하여 규칙 기반으로 개발하였다. 조직병리결과 텍스트 정보는 CRF-Named entity recognition 기능으로 생성된 NLP 파이프라인 모델을 이용하여 자동 주석처리를 통해 효율적으로 추출하였다. 데이터는 2017-2020년 자료를 8:2로 나누어 훈련셋과 검증용셋으로 사용하였으며 훈련셋의 20%는 validation으로 이용하였다. 나머지 2021년 자료는 external validation 용으로 사용하였다. 모델에서 분류한 값은 이미 등록되어있는 아주대병원 자료 및 병리과 의사의 자문을 참고하여 작성된 human labeled 값과 비교하여 성능평가를 시행하였다. 딥러닝방법으로 접근한 ICD-O-3 M-code 분류 모델은 단어의 패턴 인식에 탁월한 CNN 모델이 2021년 데이터를 사용한 검증용셋에서 AUC 0.934, Weighted F1 score 0.975, Macro F1 score 0.841로 가장 높았으며, 규칙기반으로 개발한 ICD-O-3 T-code와 KCD-8 code 분류 모델은 각각 Weighted F1 score 0.973, 0.972, Macro F1 score 0.915, 0.907의 우수한 성능을 보였다. 본 연구는 실제 의료 현장에서 생성된 암환자의 조직병리결과의 비정형 텍스트 데이터를 추출하여 국내 10대 호발암 중 5개 암종에 대해 종양학국제질병분류체계 및 한국표준질병분류체계(ICD-10기반)의 최신 개정판 기준에 따라 해부학적 부위 ICD-O-3 T code와 형태학적 소견 ICD-O-3 M code 그리고 KCD-code를 분류하는 모델을 규칙기반 및 딥러닝 방법으로 제안하였다. 한 의료기관에서 생성된 데이터셋을 활용하여 타기관에 일반화하기에는 한계가 있으나 신속하고 정확한 코드 분류를 지원할 수 있도록 규칙 및 기계학습에 기반한 효율적 분류 방법을 제안한 것에 의의가 있다.

more

초록/요약

This study aims at developing classification models based on supervised learning for ICD-O-3 and KCD-8 coding from free-text cancer pathology reports according to the latest revision of International classification of disease for oncology and Korean classification of disease to reduce human labor-intensive efforts. The subjects are surgical pathologic findings of malignant and in situ cancers in stomach cancer, colorectal cancer, breast cancer, hepatobiliary pancreatic cancer and thyroid cancer patients discharged from Ajou University Hospital in 2017-2021. Models were developed in two approaches. First, the ICD-O-3 Morphology code classification model for histological findings composed of two or more words or sentences, including differentiation of tumor, was developed using a deep learning method with excellent performance in natural language text classification. Second, the ICD-O-3 Topography code and KCD-8 code classification model, which are supposed to be classified by comprehensively checking the primary site, location of the tumor, side, depth of invasion, T-staging, gross type and behaviors were developed using rule-based in accordance with the cancer registration guidelines. The entities related tumor from pathology report were efficiently extracted through auto-annotation using NLP pipeline developed by CRF-Named entity recognition. The 2017-2020 data were split into 8:2 and used as the training data set and the test data set, and out of 20% of the training data set was used for validation. The 2021 data were used for external validation data set. The performance evaluation was implemented that the predicted values classified by model were compared with the human labeled values listed by referring to the already registered data of Ajou University Hospital and the opinion of pathologist. The ICD-O-3 Morphology code model approached by using deep learning method, the CNN model, which is excellent at recognizing patterns of words, had the highest AUC 0.934. And the ICD-O-3 Topography code and KCD-8 code model approached by using rulebased showed weighted F1-scores of 0.973 and 0.972, Macro F1 score of 0.915 and 0.907 respectively in the external validation set. In this study, models for classifying ICD-O-3 Morphology code, ICD-O-3 Topography code and KCD code were proposed by using rule-based and deep learning methods by extracting the free-text data generated in actual medical fields on 5 cancers among 10 most common cancers in South Korea. The classifying codes comply with the latest revision standards of the International Classification of Diseases oncology and the Korean Standard Classification of Diseases (based ICD-10). There is a limit to generalize to all institutions due to the use of restricted data reported by single medical center for model development in this study. Nevertheless, it is meaningful to propose a method regarding to substitute the laborintensive manual method.

more

목차

I. 서 론 1
A. 연구의 배경 및 필요성 1
1. 국내 암환자 현황 및 암등록자료의 중요성 1
2. 암환자등록 대상 및 용어 정의 4
3. 암환자 질병분류코드 4
(A) 종양학국제질병분류 ICD-O-3 코드 구조와 형식 4
(B) ICD-O-3 코드와 KCD-8 (ICD-10 기반) 코드 체계 비교 6
4. 암진단코드 분류 복잡성 7
5. 기존 암진단코드 분류 방법 및 한계 9
B. 연구의 목적 10
Ⅱ. 연구대상 및 방법 11
A. 분석 대상 데이터 11
1. 연구대상 선정기준 11
2. 데이터 추출 및 선별 11
3. NLP 파이프라인 모델 개발 및 주석 처리 15
(A) 암 진단 정보 항목 정의 15
(B) 레이블링 작업 16
(C) 암 진단 텍스트 용어 추출 16
B. 데이터 전처리 17
1. 데이터 정제 17
2. 정답 코드 작성 (Human labeled) 17
C. 실험 설계 24
1. 데이터셋 24
2. 실험 환경 설정 27
D. 암진단코드 분류 모델 개발 28
1. 딥러닝 기반의 ICD-O-3 M-code 분류 모델 28
(A) Bi-directional LSTM 모델 28
(B) CNN 모델 30
(C) 학습과 추론 방법 31
(D) Hyper parameter 설정값 33
2. 규칙 기반의 ICD-O-3 T-code 및 KCD-8 code 분류 모델 34
(A) 5개 암 분류 34
(B) 위암 분류 35
(C) 대장/직장암 분류 38
(D) 간담췌암 분류 39
(E) 유방암 분류 41
(F) 갑상선암 분류 47
E. 평가 척도 48
1. F1-score 48
2. AUROC score (The Area under the Receiver Operating Characteristics Curve) 49
Ⅲ. 결과 50
A. ICD-O-3 M code 분류 결과 50
B. ICD-O-3 T code 분류 결과 52
C. KCD-8 code 분류 결과 53
Ⅳ. 고찰 54
Ⅴ. 결론 57
참고문헌 58

more