검색 상세

토픽 모델링과 단어 중요도를 활용한 텍스트 데이터 증강 방법

Augmentation Method for Text Data based on Topic Modeling and Word Importance

초록/요약

한국어 텍스트 분류(Text Classification) 문제를 해결하기 위해 데이터 증강 (Data Augmentation)은 매우 중요한 작업이다. 한국어 텍스트 데이터는 영어 텍스트 데이터보다 작은 규모로 공개되어 한국어 텍스트 분류의 성능 한계로 이 어질 수 있다. 이 한계로 제안된 EDA(Easy Data Augmentation) 기법은 4 가지 방법으로 구성되어 있다. 그러나 이 기법은 한국어 텍스트의 맥락을 완전히 이해 하지못하며새로운데이터가원본데이터의의미를왜곡하거나부정확한정보를 포함할 수 있는 문제점이 있다. 따라서 한국어 텍스트의 의미를 왜곡하거나 부정 확한 정보를 해결하고 한국어 텍스트 분류 성능을 향상시키고자 본 논문에서는 ALDA(Augmentation LDA) 기법을 제안한다. 이를 위해 한국어 텍스트 데이터의 특징을 용이하게 추출하기 위한 TF-IDF (Term Frequency-Inverse Document Frequency)기법과잠재디리클레할당 (La- tent Dirichlet Allocation)기법을이용한다.이기법을사용함으로써단어의중요 도를 평가하여 의미 있는 패턴을 도출하고 단어 수 분포를 분석하여 토픽(Topic) 을 추출한다. 그리고 품사 태깅(Part-of-Speech Tagging)을 이용하여 토픽을 형 태소 단위로 나누고 각 형태소를 품사로 식별한다. 마지막으로 토큰화를 진행한 명사(Noun)단어를원본데이터의명사로식별된단어와교체하여새로운한국어 데이터를 생성한다. 이방법을네이버영화리뷰데이터셋에적용하여딥러닝모델의평균정확도 95.55%를 달성했다.

more

초록/요약

The process of collected and constructed data for Korean text classification tasks consumed a significant amount of time and cost. Additionally, achieved the set goals required a substantial amount of practical training data. In this paper, we propose the Augmentation LDA technique based on Term FrequencyInverse Document Frequency and Latent Dirichlet Allocation methods. Based on this technique, we evaluate the importance of word to extract meaningful pattern, analyze the distribution of word frequency, and extract word segment. Additionally, we used Part of Speech Tagging to word segment into morpheme and identify each morpheme by its part of speech. Finally, we generate new Korean text by replaced word identified as noun with those identified as noun in the original data. Using this approach, we increased the accuracy of Korean text classification through deep learning models and pre-trained models. Applying this method to the Naver Movie Review dataset, a Korean text classification dataset. we experimentally demonstrate effective Korean text classification, achieving an average accuracy of 95.55% in deep learning models.

more

목차

제 1 장 서론 1
제 2 장 관련 연구 3
2.1 EDA(Easy Data Augmentation) 3
2.2 BERT(Bidirectional Encoder Representations from Transformers) 7
2.3 성능 지표 10
제 3 장 제안 방법 13
3.1 TF-IDF 및 잠재 디리클레 할당 기반 특징 추출 14
3.1.1 TSE(Term Significance Extraction) 14
3.1.2 TE(Topic Extraction) 16
3.2 품사 정보 기반 단어 교체 18
3.2.1 POS-Tagging(Part-of-Speech Tagging) 18
3.2.2 Replacement 20
제 4 장 실험 및 평가 21
4.1 데이터셋 21
4.2 평가 23
제 5 장 결론 27
참고문헌 29
Abstract 31

more