검색 상세

토픽모델링 이용한 교통 VOC 데이터 분류 방법론에 관한 연구

Study on Methodology of Traffic VOC Data Clustering Using Topic Modeling

초록/요약

제4차 산업혁명 시대에 인공지능, 사물인터넷 등의 활용성이 주목받으며 데이터의 중요성이 드러나고 있다. 실시간으로 데이터가 생성되고 있으며 이처럼 많은 양의 데이터를 빅 데이터(big data)라고 부른다. 현재 빅 데이터의 범주에는 엑셀(excel)과 같은 정형화된 데이터뿐만 아니라 소셜 네트워크 서비스를 통해 생성되는 구조화되지 않은 비정형 데이터까지 포함하고 있다. 이처럼 비정형 데이터의 양이 증가하며 분석 기법의 하나인 텍스트 마이닝(text mining)에 대한 여러 가지 기법들이 등장하고 있다. 이에 본 연구에서는 텍스트 마이닝의 한 기법인 토픽 모델링을 활용하여 교통 고객의 소리(voice of customer, VOC) 데이터 분류 방법론을 제시하고자 한다. 본 연구의 범위는 2013년~2016년까지의 한국도로공사의 VOC 데이터이다. 총 데이터의 개수는 18,277건이며, 그중에서 7,206건의 데이터가 ‘기타’ 유형으로 분류되어있는 실정이었다. 따라서 텍스트 마이닝 기법인 토픽 모형을 통해서 VOC 데이터의 유형을 내용만을 기준으로 고객의 입장을 고려하여 재분류함으로써 향후 데이터 활용의 효율성을 높이기 위한 방법론을 제시하였다. 먼저 전통적인 기법인 LDA 토픽 모델링만을 활용하여 기존 유형 개수인 6가지 유형으로 구분해보았다. 그 결과는 데이터가 모두 기존 유형 그대로 할당되는 것은 기술적으로 힘들며 원인으로는 기존 데이터가 명확한 기준이 없이 구분되어있기 때문으로 판단되었다. 따라서 LDA 토픽 모델링과 Word2Vec 기법을 결합한 방법론을 적용하여 새로운 유형으로 구분해보았다. 그 결과, LDA 토픽 모델링만을 적용한 결과보다 데이터의 분류가 눈에 띄게 명확하게 구분됨을 확인할 수 있었다. 교통 VOC 데이터를 관리하는 기업 또는 행정기관의 업무의 시사점을 도출하고 데이터 관리자뿐만 아니라 이용자로서도 서비스 개선에 활용이 가능할 것이라고 사료된다.

more

목차

제1장 서 론 1
제1절 연구의 배경 및 목적 1
1. 연구의 배경 1
2. 연구의 목적 4
제2절 연구의 범위 및 절차 5
제2장 관련 이론 및 연구 고찰 6
제1절 관련 이론 6
1. 텍스트 마이닝 관련 이론 고찰 6
2. 텍스트 임베딩 관련 이론 고찰 11
제2절 관련 연구 14
1. 토픽 모델링 관련 연구 고찰 14
2. 단어 임베딩 관련 연구 고찰 15
3. 시사점 17
제3장 자료 수집 및 적용 방법론 선정 18
제1절 자료 수집 18
제2절 적용 방법론 선정 21
제4장 LDA 단일 기법 적용 방법론 24
제1절 텍스트 전처리 24
제2절 토픽 모델링 수행 28
제5장 단어 임베딩을 통한 키워드 확장 방법론 30
제1절 핵심 키워드 도출 및 키워드 확장 30
제2절 최적 토픽 개수 결정 33
제3절 토픽 모델링 수행 35
제6장 결론 및 향후 연구과제 38
제1절 결론 38
제2절 향후 연구과제 40

more