dCollection 디지털 학술정보 유통시스템

실제 시장상황을 고려한 강화학습 기반의 자동화 트레이딩

원문보기

주제(키워드) Reinforcement learning; Deep Q-learning; Stock trading; Trading strategy; Transfer learning
발행기관 아주대학교
지도교수 김하영
발행년도 2019
학위수여년월 2019. 2
학위명 석사
학과 및 전공 일반대학원 금융공학과
실제URI http://www.dcollection.net/handler/ajou/000000028790
본문언어 한국어
저작권 아주대학교 논문은 저작권에 의해 보호받습니다.

초록/요약

본 연구는 강화 학습으로 자동 트레이딩 시스템을 구축할 때 생기는 문제를 해결하기 위해 금융 데이터의 한계를 극복하고 실제 금융 시장 상황을 반영하는 세 가지 방법을 제안하여 총 이익을 극대화하는 것을 목표로 하고 있다. 첫째, 주식을 어떻게 거래할지 결정을 내리는 동시에 거래할 주식의 수를 예측하여 정하는 거래 시스템을 제안한다. 강화학습 방법의 일종인 Deep Q-Network(DQN)에 Deep Neural Network(DNN) Regressor를 추가하여 주식 수를 예측하는 자동화 시스템을 설계한다. 둘째, 혼란스러운 시장에서 어떤 전략이 이익을 내는데 효과적인지 분석하기 위해 Q-value를 사용하여 다양한 행동 전략을 연구한다. 마지막으로, 전이학습을 제안하여 충분하지 않은 금융 데이터로 인한 과적합을 방지한다. 본 연구에서는 이 세 가지 방법을 S&P500, KOSPI, HSI, EuroStoxx50 등 4가지 주식 지수를 사용하여 실험적으로 검증한 후 광범위한 연구를 수행한다. DNN Regressor로 주식 수를 정하는 자동 거래 시스템은 S&P500에서 4배, KOSPI에서 5배, HSI에서 12배, EuroStoxx50에서 6배의 수익이 증가하는 효과를 보였다. 시장 상황이 혼란스러운 상황에서 거래 결정을 미루는 전략은 S&P500에서 18%, KOSPI에서 24%, EuroStoxx50에서 49%의 순이익 증가율을 보였다. 또한 전이학습은 총 이익을 S&P500 2배, KOSPI 3배, HSI 2배, EuroStoxx50 2.5배 증가시킨다. 세 가지 제안된 방법을 모두 사용하는 거래 시스템은 S&P500에서 13배, KOSPI에서 24배, HSI에서 30배, EuroStoxx50에서 18배의 총 수익을 창출 해 시장 및 기존 강화학습 모델을 능가한다.

차례
논문요약 ⅰ
차례 ⅲ
그림 차례 ⅴ
표 차례 ⅵ

1. 서론 1

2. 관련 연구 7

3. 이론적 배경: Q-learning을 기반으로 한 트레이딩 10

4. 제안방법 14
4.1 거래할 주식 수 정하기 14
4.1.1 Q-value를 이용한 주식 수 결정 15
4.1.2 행동 의존적인 DNN regressor로 주식 수 결정 18
4.1.3 행동 독립적인 DNN regressor로 주식 수 결정 21
4.2 혼란스러운 시장에서의 행동 전략 22
4.3 인덱스 구성 주식을 이용한 이전 학습 24

5. 실험 결과 및 비교 30
5.1 인덱스와 관련된 구성 주식을 사용한 이전 학습 35
5.2 매매할 주식 개수 정하기 40
5.3 혼란스러운 시장에서의 행동 전략 44

6. 결론 47

참고문헌 50

Abstract 58

그림 차례
그림 1. 신경망에 의해 업데이트되는 Deep Q-learning 12
그림 2. 행동 의존적인 DNN regressor로 주식 수 결정 17
그림 3. NumDReg-AD 방법의 구조 19
그림 4. NumDReg-AD with three-step training의 훈련과정 순서도 20
그림 5. NumDReg-ID with three-step training의 훈련과정 순서도 22
그림 6. 이전학습의 학습 과정 28
그림 7. 네 가지 인덱스의 움직임 31
그림 8. S&P500과 그 구성 주식들 간의 관계와 측정방법에 따른 이전 학습 결과 비교 40
그림 9. S&P500을 사용한 NQ와 NDA 모델, 그리고 이전 학습을 적용한 결과의 비교 43
그림 10. S&P500을 사용한 NENDA, NENDA3, NENDI3 모델의 비교 44
그림 11. S&P500를 사용한 행동 전략의 비교 45

표 차례
표 1. 데이터 종류 32
표 2. 모델 약어 34
표 3. 상관관계와 신경망 복원오차에 따라 선택된 주식 종목 36
표 4. 사전훈련 모델들의 결과 39
표 5. NQ, NDA, NDI로 매매 개수를 정하며 거래하고 이전 학습과 단계별 학습을 적용한 결과 43
표 6. NENDI3에 행동 전략을 적용한 결과 45

반출 Meta View 목록

아주대학교

검색 상세

실제 시장상황을 고려한 강화학습 기반의 자동화 트레이딩

초록/요약

목차