검색 상세

온톨로지 구축을 위한 문서로부터 개념간의 관계 추출

Relation Extraction from Documents for Constructing Ontology

  • 발행기관 아주대학교 정보통신 전문대학원
  • 지도교수 박승규, 김민구
  • 발행년도 2004
  • 학위수여년월 2005. 2
  • 학위명 석사
  • 학과 및 전공 정보통신전문대학원 정보통신공학과
  • 본문언어 한국어

초록/요약

오늘날 웹(Web)은 방대한 양의 정보를 가지고 있으며, 사람들과 기업들간의 의사소통(communications)을 위한 중요한 수단이 되었다. 특히, 웹에서 이루어지는 정보 및 서비스의 검색 혹은 정보의 교환에 기계가 참여함으로써 사용자에게 많은 편의를 제공하고 있다. 하지만 웹에 존재하는 대부분의 정보는 사람에 의한 이해를 목적으로 작성되었으며, 이것은 기계가 사용자의 요청을 처리하는데 큰 장애로 작용한다. 이를 해결하기 위한 방법으로 기계가 이해할 수 있는 형태로 정보를 표현하기 위한 시맨틱 웹(Semantic Web)이 제안되었다. 시맨틱 웹은 온톨로지(ontology)를 사용하여 특정 분야의 지식을 표현함으로써, 기계에 의한 정보의 이해와 기계들간의 정보의 공유 및 교환을 가능하게 한다. 하지만 대부분의 온톨로지는 특정 분야의 전문가나 지식 공학자에 의해서 만들어지기 때문에, 온톨로지의 구축과 유지를 위해 많은 시간과 비용을 필요로 한다. 이러한 문제를 해결하기 위해서 온톨로지 자동 구축을 위한 방법들이 연구되고 있다. 본 논문에서는 온톨로지의 구축 방법의 일환으로 통계적 접근 방법을 사용하여 문서로부터 온톨로지를 구성하는 개념간의 관계를 추출하는 방법을 제안한다. 본 논문에서 제안된 방법은 특정 분야의 문서와 문서상에 존재하는 개념을 기반으로 개념간의 연관 규칙(association rules)을 사용하여 연관 규칙을 형성하는 개념 쌍을 찾고, 두 개념 사이에 존재하는 내용(context)의 군집화(clustering)를 통해 두 개념간의 관계를 설명하는 패턴(pattern)을 찾는다. 마지막으로 패턴간의 군집화를 사용하여 개념 사이의 일반화된 관계를 명시한다. 본 논문에서는 TREC (Text REtrieval Conference)에서 제공하는 문서집합을 사용하여 개념간의 관계를 추출하고 그 결과를 평가한다.

more

초록/요약

Today, the Web has a large amount of information and becomes an important expedient for communication between people and enterprises. There are also many machines to participate in this communication for providing people and enterprises with convenience. However, most of the information, which exists in the Web, is made for the human-oriented purposes. This fact is one of the obstacles for machines to process user’s requirements in the Web. Therefore, Semantic Web has been purposed to write information in machine-understandable forms. By representing some domain knowledge as well-formed ontology, the Semantic Web enables to share and exchange information between machines. However, there are needs for so much time and effort to construct ontology because ontologies can be made by domain experts and knowledge engineers. To solve this problem, there have been many researches to study methods for automatically constructing ontologies. In this paper, we propose a novel method to extract relations between concepts for constructing ontology which uses statistical approaches. The proposed method consists of three steps: First, the proposed method finds association rules, which consist of two concepts, from documents and concepts. Second, patterns are discovered from each rule by clustering contexts of the rule. Lastly, the method performs pattern clustering for finding generalized patterns, and provides the generated patterns with names, respectively. In this paper, we experiment and evaluate the proposed method by using document set offered by TREC (Text REtrieval Conference).

more

목차

목차
제1장 서론 = 1
제2장 관련 연구 = 3
제1절 온톨로지 = 4
제2절 온톨로지 자동 구축 = 5
제1항 언어적 접근 방법 = 6
제2항 통계적 접근 방법 = 7
제3장 개념간의 관계 추출 = 10
제1절 관계 추출 방법 = 11
제2절 관계 추출 시스템 = 13
제1항 전처리기 (Preprocessor) = 15
제2항 내용 추출기 (Context Extractor) = 16
제3항 연관 규칙 생성기 (Association Rule Miner) = 18
제4항 패턴 군집화 모듈 (Pattern Clustering Module) = 18
제5항 관계 명명 모듈 (Relation Naming Module) = 20
제4장 실험 및 분석 = 22
제1절 실험 데이터 = 22
제1항 개념의 추출 = 22
제2절 매개 변수 = 23
제3절 실험 및 평가 = 26
제5장 결론 = 31
참고문헌 = 33

more