검색 상세

통계와 시각화를 결합한 데이터분석 : 예측 모형 대한 시각화 검증

Data analysis by Integrating statistics and visualization: Visual verification for the prediction model

초록/요약

최근 정보통신의 발달과 함께 예측분석의 활용성이 중요해 지고 있으며 이러한 예측분석은 우리의 실생활과 밀접한 관계가 있다. 하지만 예측 분석은 패턴인식 (Pattern recognition) 혹은 기계학습(Macine learning)으로 불리는 확률적 학습 알고리즘을 기반으로 하기 때문에 사용자가 분석과정에 개입하여 더 많은 정보를 얻어내기 위해서는 높은 통계적 지식수준이 요구된다. 또한 사용자는 분석 결과외 의 다른 정보를 확인 할 수 없고 데이터의 특성 변화와 데이터 하나하나의 특징을 파악하기 힘들다는 단점이 있다. 본 연구는 이러한 예측분석의 단점을 보완하고자 통계적인 데이터 분석 방법과 시각화 분석 방법을 결합하여 데이터 분석을 진행하 였으며 통계적인 분석 방법만을 진행 할 경우 발생하는 단점을 보완하고 데이터에 서 더 많은 정보를 도출해 내기 위한 방법론을 제시 하고자하였다. 또한 본 연구 는 통계적인 분석과 시각화 분석을 결합하여 분석을 진행 할 때 영화의 흥행성을 예측하는 것을 목적으로 하였으며 분석을 통해 도출된 결과는 다음과 같다. 첫째, 의사결정나무분석에서 제시된 분할 기준이 적용될 때 마다 변하는 데이터의 패턴 을 파악할 수 있다. 둘째, 제시된 최종 예측 모형에 포함된 데이터들의 특성을 확 인 할 수 있다. 본 연구의 시사점은 예측모형의 단점을 보완하고 데이터로부터 더 많은 정보를 추출하기 위해 통계적인 데이터 분석과 시각적인 데이터 분석을 결합 하여 시행하였다는 것이다. 통계적인 분석 방법을 통해 각 변수의 관계를 파악하고 높은 영화 흥행성을 예측하기 위한 예측모형을 도출하였으며, 시각화 분석에서는 변수들의 분포를 파악하는 사용자 인터렉션이 가능한 다양한 기능을 제공함으로서 최종적으로 제시된 예측모형을 검증하고 데이터로부터 더 다양한 정보를 도출하기 위한 방법론을 제시하였다.

more

초록/요약

Recently, predictive analytics is becoming more important with the development of information and communication. Predictive analytics is closely related our daily life. However, predictive analysis is based on a probabilistic learning algorithm called pattern recognition or machine learning. Therefore, if users want to extract more information from the data, they are required high statistical knowledge. In addition, it is difficult to find out data pattern and characteristics of the data. This study conducted statistical data analyses and visual data analyses to supplement prediction analysis's weakness. Through this study, I could find some implications that haven't been found in the previous studies. First, I could find data pattern when I adjust data selection according as splitting criteria for the decision tree method. Second, I could find what type of data included in the final prediction model. I could find some implications that haven't been found in the previous studies from the results of statistical and visual analyses. In statistical analysis we found relation among the multivariable and deducted prediction model to predict high box office performance. In visualization analysis we proposed visual analysis method with various interactive functions. Finally through this study I verified final prediction model and suggested analysis method extract variety of information from the data.

more

목차

1. 서론 1
1. 연구배경 및 필요성 1
2. 연구의 목적 및 방법 3
2. 이론 및 선행 연구의 고찰 4
1. 영화 흥행 관련연구 4
2. 영화 감정 어휘 관련연구 5
3. 의사결정나무분석 관련연구 6
4. 시각화분석 관련연구 8
3. 데이터 수집 및 정제 10
1. 영화 리뷰 데이터 수집 10
2. 감정어휘 사전 구축 및 감정어휘 데이터 생성 10
3. 데이터 특성 파악 13
4. 통계를 활용한 예측 분석 15
1. 군집분석과 MDS시각화를 이용한 영화 장르 군집화 15
가. 군집분석의 정의 16
나. 군집분석 결과 16
다. 군집 결과 시각화 18
2. 의사결정나무분석을 활용한 영화 흥행도 예측 19
가. 의사결정 나무 분석의 정의 19
나. 전체 영화에 대한 의사결정나무분석 20
다. 군집 1 영화에 대한 의사결정나무분석 22
라. 군집 2 영화에 대한 의사결정나무분석 24
마. 군집 3 영화에 대한 의사결정나무분석 26
바. 군집 4 영화에 대한 의사결정나무분석 28
사. 의사결정나무분석 결과에 대한 종합적인 해석 30
5. 시각화 분석 및 검증 32
1. Parallel coordinates의 개념 32
2. Parallel coordinates의 기능 33
가. 번들링(Bundling) 33
나. 축(Axes) 34
다. 색상(Colour) 34
라. 기술 통계(Descriptive statistic) 34
마. 데이터 선택(Data Selection) 35
바. 제거된 데이터 표현 36
3. Parallel coordinates를 활용한 분석 37
가. 영화 장르 별 흥행도의 분포와 대표 감정 어휘의 분포 37
나. 영화의 대표 감정 어휘 사이의 상관관계 38
4. 통계분석 결과에 대한 시각화 검증 40
가. 전체 영화에 대한 의사결정나무분석 및 시각화 검증 40
나. 군집 1 영화에 대한 의사결정나무분석 및 시각화 검증 43
다. 군집 2 영화에 대한 의사결정나무분석 및 시각화 검증 46
라. 군집 3 영화에 대한 의사결정나무분석 및 시각화 검증 49
마. 군집 4 영화에 대한 의사결정나무분석 및 시각화 검증 52
바. 시각화 검증 결과에 대한 종합적인 해석 54
6. 결론 57
참고문헌 59
Abstract 62

more