검색 상세

Development of Clinical Information Extraction Model from Unstructured Clinical Reports using Natural Language Processing

초록/요약

With the rapid adoption of electronic health records and the recent advances in natural language processing (NLP), the secondary use of the clinical reports has been increased. Especially, the cancer-related information extraction from the pathology reports has been a continuous interest in the cancer informatics. There have been several attempts to develop cancer information extraction models or frameworks. However, most of the models were developed and validated in the single institution or single database. In this study, we aimed to develeop a model for cancer information extraction using Korean clinical data and validated the model on the standardized medical databases. We used 1,100 pathology reports of 5 target cancer diagnosed patients (ICD-10th: C16, C18-21, C34, C50 and C61) from Ajou university hospital database. The 14 cancer-related data elements were defined and annotated with the extracted pathology corpus. Overall, 13 pre-trained language models and 1 conevntional machine-learning model were developed with the annotated 1,100 pathology reports. The developed model with the best performance was applied to the pathology reports from three teteriary hostpial databases in South Korea. Among the 14 developed models, BlueBERTMIMICbase model achieved the highest precision, recall, and f1-score of 0.933, 0.957, and 0.945, respectively. Overall, the model was applied on a total of 102,158 pathology reports from three tertiary hospital databases in South Korea. With the most frequently extracted concepts, 273 concepts were mapped in to the standardized medical vocabulary. In this study, we were able to develop a cancer information extraction model with a standardized framework. The developed model and framework were able to apply to the three standardized medical databases in South Korea. The developed framework can provide the basis for the extraction and standardization of information embedded in the clinical reports.

more

초록/요약

전자의무기록의 도입과 더불어 자연어처리 기술의 발달은 전자의무기록 내의 의무기록지의 활용 가능성을 증대시키고 있다. 특히 자연어처리를 활용하여 의무기록지에서 암 정보를 추출하려는 시도는 지속적으로 시도되고 있으며, 현재까지 다양한 암 정보 추출 모델 및 애플리케이션들이 개발되었다. 하지만 대부분의 암 정보 추출 모델들은 단일 기관 혹은 단일 데이터베이스에서 개발되고 검증되었으며, 시스템의 표준화 부재 등으로 인해 다기관에서 검증된 사례는 제한적이다. 반면에 사전학습 기반의 언어 모델은 다양한 임상 자연어처리분야에서 기존의 기계학습 기법들에 비해 높은 성적을 기록하고 있다. 하지만 이러한 언어 모델을 한국어 기반의 의무기록지에서 사용된 사례는 제한적으로 보고되고 있다. 따라서 본 연구에서는 한국어 기반의 병리 기록지를 활용하여 언어모델을 활용한 암 정보 추출 모델을 개발하고자 하고, 이를 표준화된 의료 데이터베이스를 활용하여 다기관에 적용하고자 한다. 본 연구에서는 아주대학교병원의 5 개 암종 환자들(ICD-10th: C16, C18-21, C34, C50, C61)의 1,100 건의 병리 기록지를 추출하여 연구에 활용하였다. 총 14 개의 암 관련 정보를 정의하여 주석 진행하였고, 13 개의 사전학습된 언어모델과 1 개의 기계학습 모델을 학습하여 성능을 비교하고자 하였다. 모델의 검증을 위해 3 개의 OMOP-CDM 기반 데이터베이스의 주석이 없는 대상 암종 병리기록지에 대하여 모델을 적용하여 모델 검증을 하고자 하였다. 1,100 개의 주석처리된 데이터로 모델을 개발하여 비교하였을때, BlueBERTMIMICbase 119 모델이 f1-score 가 0.945 로 가장 높은 성능을 나타내었고, 해당 모델을 사용하여 3 개 데이터베이스의 총 102 ,158 개의 병리 기록지에 대하여 모델 적용을 진행하게 되었다. 모델 적용 과정을 통하여 가장 많이 추출된 컨셉들을 기준으로 273 개의 컨셉들을 표준용어체계로 매핑하였다. 본 연구에서는 표준화된 의료 데이터베이스 연구망을 활용하여 다기관에서의 표준화된 암 정보 추출 시스템을 개발하였고, 3 개의 의료 데이터베이스에 대하여 검증을 수행하였다. 본 연구는 한국어 기반의 병리 기록지에 대하여 다양한 언어 모델의 성능을 비교한 최초의 연구이며, 개발한 시스템은 암 정보 뿐만이 아니라 다른 개체명 인식 모델을 활용하여 연구 수행이 가능하기에 향후 다기관 자연어처리 연구의 기반이 될 것으로 기대된다.

more

목차

I. Introduction 1
A. Background 1
B. Purpose of Study 5
II. Materials and Methods 6
A. System Architecture 6
B. Data Source 9
C. Annotation 10
D. Model Development 17
E. Model Validation 23
III. Results 24
A. Annotation 24
B. Model Performance 27
C. Model Validation 45
IV. Discussion 67
A. Main Findings 67
B. Limitations 72
V. Conclusion 75
References 76

more