검색 상세

확장된 이산 행동 영역에 적용한 강화학습 기반의 행동 특화된 전문가 모델 앙상블 트레이딩 시스템

Reinforcement learning based expert ensemble trading system with discrete action space

초록/요약

객관적이고 비교적 정확한 데이터가 넘쳐나는 금융 영역에서 기계학습을 이용한 연구가 활발히 진행되고 있으며 다양한 방법으로 시도되고 있다. 지도학습과 비지도학습을 활용한 많은 연구가 진행되지만 본 연구에서는 기본적으로 강화학습을 이용한 트레이딩 시스템을 연구하고 앙상블을 하여 성능을 높인다. 본 연구는 강화학습 기반의 트레이딩 시스템의 성능을 높이는 제안으로 첫째, 같은 데이터셋을 다양한 모델로 분석하여 이를 앙상블하거나 데이터셋을 다르게 하여 분석 후 앙상블하는 기존의 방식과 달리 차별화된 접근 방법으로 새로운 행동 특화된 전문가 앙상블 방법을 제안하여 일반 앙상블 방법보다 효과적인 결과를 실험으로 보였다. 행동 특화된 전문가 모델은 각각 매수, 보류, 매도에 특화된 모델이며 특정한 상황에서 각 행동에 대한 보상을 다르게 하여 전문가 모델을 구성하였다. 둘째, 기존 연구들에서 행동 영역을 연속적으로 접근하여 비중을 구하거나 매수, 보류, 매도의 3개의 이산 행동 영역으로 연구되던 방법들과 달리 차별화된 접근 방법으로 확장된 이산 행동 영역으로 접근하여 시장 상황을 스스로 분석하고 트레이딩 시스템의 수량을 스스로 조절하는 학습을 진행하였다. 기존의 거래 가능한 수량인 1개에서 최대 5개, 10개로 확장될 경우 강화학습 시스템이 잘 학습할 수 있는지, 어떠한 결과가 나타나는지 알아보았다. 이러한 제안된 방법들을 실험적으로 검증하기 위해서 S&P500, 항셍지수, Eurostoxx50의 3가지 데이터를 사용하였으며 20년간의 학습 기간, 11년간의 테스트 기간으로 동일하게 진행하였다. 그리고 보상 함수로 수익률, 샤프 지수, 소르티노 지수 3가지를 사용하여 비교해보았으며, 최종적으로 트레이딩 시스템 연구에서 자주 사용되는 보상 함수인 수익률과 변동성을 고려한 소르티노 지수를 사용하여 실험 결과를 도출하였다. 행동 특화된 전문가 앙상블은 평균적으로 39.1%의 상승효과를 보이며 일반 앙상블의 14.6%에 대비하여 효과적이었다. 행동 영역 확장의 경우 3-액션을 11-액션, 21-액션으로 확장하였고 각각 427.2%, 856.7%의 증가율을 보였다.

more

목차

제1장 서론 1
제2장 기술적 배경 6
제1절 Deep Q-Network 6
제2절 앙상블 방법 7
1. 비가중평균 앙상블 7
가. 직접 투표 (Hard Voting) 7
나. 간접 투표 (Soft Voting) 8
2. 가중 평균 앙상블 8
제3장 연구 방법 9
제1절 데이터 설계 9
1. 데이터 종류 및 기간 9
2. 데이터 분석 9
3. 수익률 분포 및 데이터 균형 11
제2절 제안 모델: 행동 특화된 전문가 기반 트레이딩 모델 12
1. 상태 영역 (State Space) 12
2. 행동 영역 (Action Space) 12
3. 보상 함수 (Reward Function) 13
가. 단일 모델 (Single Model) 13
나. 행동 특화 모델 (Action-based Specific Expert Model) 14
제3절 전문가 앙상블 방법 15
제4장 연구 결과 및 분석 16
제1절 중간 결과 16
1. 샤프 지수와 소르티노 지수의 계산 기간별 수익률 결과 16
2. 행동 특화된 전문가 모델의 결과 17
제2절 최종 결과 18
1. 행동 특화된 전문가 앙상블 결과 18
2. 확장된 이산화 행동 영역의 실험 결과 26
제5장 결론 31
참고문헌 32
Abstract 36

more