검색 상세

인과관계 도출을 위한 텍스트 마이닝 방법론

Text Mining for Extracting Causal Relation

초록/요약

빅 데이터 시대의 이슈와 함께 급증하고 있는 비정형 데이터와 더불어 텍스트 마이닝을 이용한 연구도 증가하고 있다. 그러나 대부분의 텍스트 마이닝 방법에서는 키워드 추출 또는 연관관계 추정 기반 모델링에 그쳐 탐색하고자 하는 특정 정보의 추출이나 어떠한 관계를 가지는지에 대한 정보 분석에는 한계가 있다. 또한 의생명 정보학 분야에서는 대부분의 질병 네트워크에서 질병 간의 관계가 단순히 연관관계로써 표현되어 어떤 질병에 선행질병이며 후행질병에 어떻게 영향을 끼치는지에 대한 인과관계를 규명할 수 없다는 한계점이 있다. 본 논문에서는 어휘 의미론에 기반한 어휘 의미 기반 인과관계 용어 강도와 문서에서의 인과관계 정보 빈도수를 바탕으로 한 빈도수 기반 인과관계 강도를 통해 질병 간의 선·후행 관계와 그에 대한 강도를 계산할 수 있는 방법을 제안한다. 제안하는 방법론은 6,617,833개의 의생명 문헌에 적용하였으며 질병 인과관계 네트워크를 구성하기 위해 195개의 질병을 선정하였다. 구성된 네트워크에서는 149개 질병들 간의 1,011개의 인과관계를 도출하였다. 실험 결과는 기존 연구와의 비교를 통하여 정량적인 측면을 검증하였을 때 약 2.7배의 인과관계를 더 많이 찾았을 뿐만 아니라 정성적 측면에서도 비교 기준으로 이용한 방법과 높은 상관관계를 나타내어 기존 연구보다 우수한 결과를 산출함을 보였다.

more

목차

1. 서론
2. 응용분야 연구배경
3. 제안 방법론
3.1 어휘 의미 기반 인과관계 용어 강도
3.2 빈도수 기반 인과관계 강도
3.3 인과관계 강도 및 방향성
4. 실험
4.1 데이터
4.2 질병 인과관계 네트워크 구성 결과
4.3 기존 연구 방법론과의 결과 비교
5. 결론
6. 참고문헌
7. 부록

more