검색 상세

복합어 및 주제어 추출을 이용한 개선된 정보 검색 시스템

Improved Information Retrieval System Using Multi-word and Keyphrase Extraction

  • 발행기관 亞州大學校 情報通信專門大學院
  • 지도교수 박승규, 김민구
  • 발행년도 2004
  • 학위수여년월 2005. 2
  • 학위명 석사
  • 학과 및 전공 정보통신전문대학원 정보통신공학과
  • 본문언어 한국어

초록/요약

정보검색분야에 관한 연구는 오늘날처럼 인터넷 환경이 발달하기 훨씬 이전부터 많은 관심 속에 진행되어 왔으며, 인터넷 관련 기술이 눈부시게 발전한 요즘에 이르러서는 그 중요성이 더욱 더 부각되고 있다. 정보검색분야에서 가장 중요한 것은 어떻게 하면 사용자가 원하는 정보를 보다 정확하고 빠르게 제공할 것인 가이며, 이를 위해 다양한 기법들이 연구되어 왔다. 이들 기법은 크게 두 가지 방향으로 구분될 수 있다. 첫째는 문서 또는 사용자의 질의어에 포함된 용어에 대한 색인 정보를 이용하는 전략이고, 둘째는 각각의 문서에 포함된 하이퍼링크 정보를 이용하는 전략이다. 최근에는 위의 두 가지 전략을 결합하여 사용하는 다양한 연구도 진행되고 있다. 본 논문에서는 두 가지 전략 중 전통적인 방법에 속하는 문서 또는 사용자의 질의어에 포함된 용어에 대한 색인 정보를 이용하는 전략 중에서 단일어뿐만 아니라 복합어 및 주제어를 추출하여 정보검색에 이용함으로써 그 성능을 향상시킬 수 있음을 보이고자 한다. 추출된 복합어 및 주제어를 이용하여 정보검색의 성능을 향상 시키기 위해서는 정확한 추출과 더불어 추출된 단어에 대한 가중치 부여 방법이 중요한 고려대상이다. 본 연구는 복합어 추출을 위한 세가지 기법과 베이지안 네트워크를 이용한 주제어 추출 기법을 정보검색 시스템과 연계하여 그 성능을 간접적으로 비교 평가할 것이다. 또한 실험을 통해서 발견된 문제점들에 대해서도 분석한다.

more

초록/요약

There have been a lot of researches of Information Retrieval with great interest before the improvement of nowadays’ high speed internet environment. The significance of Information Retrieval is even getting focused these days with highly improved technologies of the internet. The most important goal of research in Information Retrieval area is how to provide more accurate information of user’s interest quickly, and many techniques have been studied. These techniques can be categorized roughly into two strategies. First one is the strategy which uses indexing information of term contained in the document and user’s query. The second one is the strategy using hyperlink information contained inside each document. Recently, there is research using hybrid strategy which combines above both strategies. In this paper, we use the first method which can be featured as traditional method to extract multi-word and keyphrase among the above two major strategies. Then, we will prove that it is possible to improve Information Retrieval performance by using those extracted multi-word and keyphrase. To improve Information Retrieval performance by using extracted multi-word and keyphrase, accurate term extraction and the weighting scheme for that extracted term are two major concerns. We will compare the performances of 3 different methods for extracting multi-word and the method using the Bayesian network for extracting keyphrase in accordance with the Information Retrieval system indirectly. Finally, we also analyze the problems found through the experiment.

more

목차

목차
제 1 장 서론 = 1
제 2 장 관련 연구 = 3
제 1 절 정보검색 연구 동향 = 3
제 1 항 Language Model = 3
제 2 항 BM25 Model = 6
제 2 절 복합어 추출 기법 연구 동향 = 9
제 1 항 연관률에 기반한 연구 = 9
제 2 항 문맥 정보에 기반한 연구 = 11
제 3 절 주제어 추출 기법 연구 동향 = 12
제 1 항 나이브 베이지안 네트워크에 기반한 연구 = 14
제 2 항 유전자 알고리즘에 기반한 연구 = 17
제 3 장 복합어 추출 시스템 = 18
제 1 절 연관률 기반 복합어 추출 = 18
제 2 절 추출한 복합어에 대한 가중치 부여 = 20
제 4 장 주제어 추출 시스템 = 22
제 1 절 나이브 베이지안 네트워크 기반 시스템 = 22
제 1 항 기본 알고리즘 = 22
제 2 항 Feature Calculation = 24
제 3 항 모델의 이용 방법 = 24
제 2 절 추출한 주제어에 대한 가중치 부여 = 26
제 5 장 성능 평가 및 실험 결과 분석 = 26
제 1 절 실험 자료 및 환경 = 26
제 1 항 실험 자료 = 26
제 2 항 실험 환경 = 27
제 2 절 실험 결과 = 27
제 1 항 복합어를 이용한 정보 검색 시스템의 실험 결과 = 27
제 2 항 주제어를 이용한 정보 검색 시스템 실험 결과 = 30
제 3 절 실험 결과의 분석 = 33
제 6 장 결론 및 토의 = 34
참고문헌 = 36

more