검색 상세

한국어 웹 문서 범주화를 위한 텍스트 마이닝 기법 연구

Text Mining Techniques for Korean web documents classification and clustering

초록/요약

컴퓨터 네트워크 기술의 발전으로 인터넷 사용률 증가와 함께 웹 문서 또한 기하급수적으로 증가하고 있다. 이로 인해 폭발적으로 증가하는 웹 문서를 빠르고 정확하게 분류하는 문제 또한 큰 이슈가 되고 있다. 하지만 텍스트 마이닝 기법들은 주로 영어로 작성된 문서들을 중심으로 연구가 진행되고 있어 한국어로 작성된 문서들을 위한 텍스트 마이닝 기법에 대한 연구는 아직 활발하게 진행되지 않은 상태이다. 이는 한국어 특유의 중의적 의미를 가진 단어의 빈번한 사용과 용언의 불규칙 활용, 자유로운 어순, 띄어쓰기 문제 등 한국어 분석에 많은 어려움이 존재하기 때문으로 판단된다. 본 연구에서는 단어의 중의적 사용을 제거하는 방법으로 선택적 Bigram 모델을 제안한다. 빈번하게 함께 사용되는 단어 간의 결합과 형태소 분석을 통해 분리된 품사 간의 결합을 통해 문장 구성 요소의 중의적 해석을 제한한다. 또한, 웹을 통하여 수집한 한국어 웹 문서, 전자메일, 인터넷 신문기사를 형태소 분석, N-gram 모델, 품사결합을 통해 전처리하고, 이를 범주화하기 위한 텍스트 마이닝 기법을 제안하고 이를 통해 선택적 Bigram 모델의 성능을 평가한다. 텍스트마이닝을 위한 기법은 현재까지 많은 방법이 소개되었고, 현재도 개발되고 있다. 모든 문서에 가장 적합한 텍스트 마이닝 기법은 존재하지 않는다. 분석에 사용될 데이터의 특성을 잘 파악하고 그에 맞는 기법을 활용하는 것이 분석 결과의 품질을 높이는 방법이다. 본 연구에서는 웹 문서를 분석하여 사람의 스트레스 원인을 분석하고, 전자메일을 주제별로 군집화하는 문제, 낚시성 인터넷 신문기사를 분류하는 문제에 적합한 텍스트 마이닝 기법을 제안한다.

more

목차

1. 서 론 1
1.1. 연구 배경 1
1.2. 연구 내용 2
1.3. 논문 구성 2
2. 관련 연구 3
2.1. 한국어 자연어 처리 3
2.2. 한국어 텍스트 마이닝 4
3. 한국어 문서 분석을 위한 전처리 방법 연구 5
3.1. 형태소 분석 6
3.2. 선택적 Bigram 모델 8
4. 한국어 문서 범주화를 위한 텍스트 마이닝 기법 연구 11
4.1. 웹 문서에서 주제를 추출하기 위한 텍스트 마이닝 기법 11
4.1.1. 실험 구성 12
4.1.2. LDA를 활용한 주제 추출 18
4.1.3. 실험 결과 20
4.2. 전자메일 주제별 군집화를 위한 텍스트 마이닝 기법 16
4.2.1. 실험 구성 17
4.2.2. 주제 추출 및 클러스터링 18
4.2.3. 새로운 이메일 분류 20
4.2.4. 실험 결과 23
4.3. 낚시성 신문기사 분류를 위한 텍스트 마이닝 기법 24
4.3.1. 실험 구성 24
4.3.2. 특징 추출 27
4.3.3. SVM을 통한 일반기사와 낚시기사 분류 27
4.3.4. 실험결과 29
5. 결론 및 향후연구 30

참 고 문 헌 32
ABSTRACT 34

more