검색 상세

온톨로지 자동구축을 위한 지능형 계층 관계 추출 시스템 연구

An Intelligent Taxonomy Relation Extraction System for Automatic Ontology Construction

초록/요약

매일마다 엄청난 양의 데이터가 만들어지는 정보의 홍수 속에서 데이터들 중에 숨어 있는 정보와 지식을 추출하여 도메인의 문제 해결에 도움을 주는 지식 기반 시스템은 지식 표현의 대표적인 방법인 온톨로지를 이용하여 지식을 관리하고 있다. 다양한 분야에서 온톨로지를 활용하기 위하여 온톨로지를 구축하고자 하지만, 온톨로지를 수동으로 구축하는 작업은 온톨로지 전문가들이 모여서 상당한 노력과 많은 시간이 소요되는 어려운 작업이다. 본 논문은 도메인 온톨로지를 자동으로 구축하는데 도움을 주고자, 도메인 전문가가 선정해준 키워드 리스트를 이용하여 도메인 문서집합으로부터 키워드들 간에 존재하는 상하위 관계정보를 자동으로 추출하는 새로운 방법을 제안하였고, 도메인 전문가가 선정해준 키워드의 속성정보를 도메인 문서집합으로부터 추출하는 두 가지 방법을 제안하였다. 첫째, 제안한 상하위 관계정보를 추출하는 방법은 추출한 키워드 속성정보를 이용하여 개념 순서화 방식을 적용하여 상하위 관계정보 추출하는 방법으로 키워드의 속성집합이 다른 키워드의 진부분 집합이 되지 않아도 포함정도에 따라서 상하위 관계가 성립될 수 있는 방법을 제안하였다. 둘째, 도메인 전문가로부터 선정된 키워드의 속성정보를 자동으로 추출하는 첫 번째 방법으로는 ‘Distributional Hypothesis’을 근거로 하여 도메인 문서집합에서 해당 키워드가 출현하는 주변의 단어들을 키워드의 속성으로 추출하는 방법을 제안하였다. 해당 키워드 주변에 등장하는 모든 단어들을 키워드의 속성으로 선정하지 않았고, 해당 키워드와 속성단어가 동시에 출현하는 신뢰도의 값을 이용하여 키워드의 속성으로 선정하였다. 셋째, 도메인 전문가로부터 선정된 키워드의 속성정보를 자동으로 추출하는 두 번째 방법으로는 도메인 문서집합에서 해당 키워드가 출현하는 주변의 단어들을 군집화하고, 키워드의 속성으로 군집ID를 추출하는 방법을 제안하였다. 해당 키워드 주변에 등장하는 단어들을 그대로 키워드의 속성으로 선정하지 않고, 속성단어들을 문서-가중치 벡터로 표현하고, 벡터 정보를 이용하여 속성단어들을 군집화하고, 속성단어가 속한 군집의 ID를 키워드의 속성으로 선정하는 새로운 방법을 제안하였다. 또한, 본 논문에서 제안된 방법들의 성능을 실험하기 위해 지능형 상하위 관계정보 자동 추출 시스템을 구현하였다. 구현된 시스템에 제안된 방법들의 성능을 측정하기 위하여 가상의 도메인 ‘school’을 선정하였고, 인터넷 상에 존재하는 ‘school’과 관련된 웹 문서를 수집하고, WordNet2.1을 이용하여 실험을 진행하였다. 실험 결과로는 제안한 상하위 관계정보를 추출하는 방법을 통하여서 F-Measure 값이 기존의 방법대비 25% 향상의 결과를 얻을 수 있었고, 키워드 주변에 등장하는 단어를 속성으로 정의한 방법을 통하여서 좋은 F-Measure 결과를 얻을 수 있었고, 주변에 등장하는 단어들을 군집화하여 군집을 속성으로 정의한 방법을 통하여서 평균 F-Measure값이 속성정보 추출 방법1에 비하여 약 42% 더 좋은 결과를 얻을 수 있었다.

more

목차

감사의 글 I
요 약 II
목 차 IV
그림 목차 VII
표 목차 VIII
1. 서론 1
1.1 연구 배경 1
1.2 연구 목적 6
1.3 논문 구성 10
2. 온톨로지 구축 및 관계정보 자동 추출 관련 연구 12
2.1 온톨로지 소개 13
2.1.1 온톨로지 기원 13
2.1.2 온톨로지 정의 14
2.1.3 온톨로지 구성요소 15
2.1.4 온톨로지 분류 17
2.1.4.1 상위(Upper-level) 온톨로지 17
2.1.4.2 하위(Lower-level) 온톨로지 18
2.2 온톨로지 개발 프로세스 20
2.2.1 METHONTOLOGY의 온톨로지 개발 프로세스 20
2.2.2 METHONTOLOGY의 개념화(conceptualization) 활동 23
2.3 기존 관계정보 자동 추출 방법 연구 28
2.3.1 구문패턴 정보를 이용한 연구 29
2.3.1.1 고정 구문패턴 정보 이용 방법 30
2.3.1.2 학습을 통한 동적 구문패턴 정보 이용 방법 32
2.3.2 계층화 방식을 이용한 연구 35
2.3.2.1 계층 군집화를 이용한 방법 36
2.3.2.2 Formal Concept Analysis를 이용한 연구 39
3. 지능형 상하위 관계 자동 추출 시스템 44
3.1 시스템 기본 접근 방향 44
3.1.1 데이터 집합 44
3.1.2 개념 이름의 명명 46
3.2 상하위 관계 추출 방법 48
3.3 키워드 속성정보 추출 방법 52
3.3.1 키워드 속성정보 추출 방법1 52
3.3.2 키워드 속성정보 추출 방법2 54
3.4 시스템 구조 56
3.4.1 ‘Process Full Text’ 모듈 57
3.4.2 ‘Make Context’ 모듈 59
3.4.3 ‘Refine Context’ 모듈 60
3.4.4 ‘Extract Taxonomy Relation’ 모듈 62
4. 실험 결과 및 분석 64
4.1 실험 설정 64
4.1.1 도메인 및 키워드 리스트 선정 64
4.1.2 도메인 문서집합 67
4.2 실험 및 평가 방법 68
4.2.1 실험 방법 68
4.2.2 평가 방법 70
4.3 실험 결과 72
4.3.1 속성정보 추출 방법의 결과 72
4.3.1.1 동사를 속성정보로 추출한 결과 72
4.3.1.2 속성정보 추출 방법1 결과 73
4.3.1.3 속성정보 추출 방법2 결과 76
4.3.2 포함정도 값을 적용한 개념 순서화 결과 80
4.3.2.1 속성정보 추출 방법1에 적용한 결과 80
4.3.2.2 속성정보 추출 방법2에 적용한 결과 82
4.4 결과 분석 84
4.4.1 기존 관련 연구들의 결과 84
4.4.2 속성정보 추출 방법의 결과 분석 85
4.4.3 포함정도 값을 적용한 개념 순서화 결과 분석 88
5. 결론 92
5.1 연구의 결론 92
5.2 연구의 기여도 94
5.3 향후 연구 과제 96
참고문헌 98
ABSTRACT 105

more