검색 상세

ModAugNet: 과적합 방지 LSTM 모듈과 예측 LSTM 모듈을 활용한 새로운 주가지수 예측 모델

ModAugNet: A new forecasting framework for stock market index value with an overfitting prevention LSTM module and a prediction LSTM module

초록/요약

금융자산의 가격 예측은 정확한 예측치를 통해 투자 의사결정의 위험을 낮출 수 있기 때문에 중요성을 갖는다. 최근에는 심층신경망 기법이 이 분야의 연구에 적용되고 있지만, 트레이닝을 위한 데이터 수의 제한으로 인해 과적합에 취약하다는 한계점을 지닌다. 본 논문에서는 이를 극복하기 위해 두 가지 모듈(과적합 방지 LSTM 모듈과 예측 LSTM 모듈)로 구성된 ModAugNet 프레임 워크를 통해 주가 지수 예측을 위한 새로운 data augmentation 기반 방법론을 제안한다. 제안한 모델(ModAugNet)의 성능은 한국 시장과 미국 시장의 대표적인 주식 시장 데이터(코스피200, S&P500)에 기반하여 평가하였다. 결과 분석을 통해 첫째, 제안한 모델의 예측 정확도가 우수함을 보였다. ModAugNet-c 모델이 과적합 방지 LSTM 모듈을 추가하지 않은 비교모델(SingleNet)보다 낮은 테스트 오차를 기록했다. S&P500의 예측에 있어 SingleNet 대비 테스트 오차가 Mean squared error (MSE) 기준 54.1%, Mean absolute percentage error (MAPE) 기준 35.5%, Mean absolute error (MAE) 기준 32.7% 감소하였다. 또한 코스피200 예측에 있어서도 SingleNet 대비 테스트 오차가 MSE 기준 48%, MAPE 기준 23.9%, MAE 기준 32.7% 감소하였다. 둘째, 학습이 완료된 ModAugNet-c에서 예측치는 오직 예측 LSTM 모듈의 테스트 입력에 의해서만 산출됨을 발견하였다. 본 연구는 금융 외에도 의료 분야 등 데이터 수가 부족하고 인위적인 data augmentation이 어려운 분야에서 활용 가능하다는 점에서 의의를 지닌다.

more

초록/요약

Forecasting a financial asset’s price is important as one can lower the risk of investment decision- making with accurate forecasts. Recently, the deep neural network is popularly applied in this area of research; however, it is prone to overfitting owing to limited availability of data points for training. We propose a novel data augmentation approach for stock market index forecasting through our ModAugNet framework, which consists of two modules: an overfitting prevention LSTM module and a prediction LSTM module. The performance of the proposed model is evaluated using two different representative stock market data (S&P500 and Korea Composite Stock Price Index 200 (KOSPI200)). The results confirm the excellent forecasting accuracy of the proposed model. ModAugNet-c yields a lower test error than the comparative model (SingleNet) in which an overfitting prevention LSTM module is absent. The test mean squared error (MSE), mean absolute percentage error (MAPE), and mean absolute error (MAE) for S&P500 decreased to 54.1%, 35.5%, and 32.7% respectively, of the corresponding S&P500 forecasting errors of SingleNet, while the same for KOSPI200 decreased to 48%, 23.9%, and 32.7% respectively, of the corresponding KOSPI200 forecasting errors of SingleNet. Furthermore, through the analyses of the trained ModAugNet-c, we found that test performance is entirely dependent on the prediction LSTM module. The contribution of this study is its applicability in various instances where it is challenging to artificially augment data, such as medical data analysis and financial time-series modeling.

more

목차

제1장 서론 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧1
제1절 논문의 배경 및 선행 연구 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧1
제2장 연구방법 및 자료 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧6
제1절 Long Short-Term Memory (LSTM) ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧6
제2절 데이터의 수집과 전처리 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧8
제3장 실험 설계 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧9
제1절 모델 아키텍처 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧9
제2절 방지 모듈 입력변수 준비 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧12
제3절 학습 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧13
제4절 학습된 ModAugNet 분석을 위한 synthetic test data 생성 ‧‧‧14
제4장 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧17
제1절 S&P500 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧17
1. SingleNet 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧17
2. ModAugNet-f 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧17
3. ModAugNet-c 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧23
제2절 코스피200 예측 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧25
1. SingleNet 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧25
2. ModAugNet-f 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧25
3. ModAugNet-c 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧30
제3절 각 모듈의 가중치 연결 조사 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧32
제4절 손실 함수에 따른 실험 결과 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧35
제5절 통계 검정 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧36
제5장 추가 논의 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧39
제1절 금융위기가 ModAugNet-c의 성능에 미치는 영향 분석 ‧‧‧‧‧‧‧‧‧‧39
제2절 다른 방법론들과의 성능 비교 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧41
제3절 트레이딩 시뮬레이션 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧42
제6장 결론 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧45
참고문헌 ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧47
Abstract ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧54

more