투자자는 알고리즘 트레이딩을 통해 사람의 개입 없이 양적 분석 및 기계학습 방법을 통해 이익을 얻을 수 있다. 최근 몇 년 동안 강화학습을 사용한 알고리즘 트레이딩은 좋은 결과를 보였다. 강화학습을 사용하기 위해서는 특징을 추출하고 수익성 있는 정책을 학습해야 하는 과제가 있다. 또한,숏 포지션을 사용하는 알고리즘 트레이딩은 위험하거나 실제로 불가능할 수있다. 이러한 과제를 해결하기 위해 우리는 롱 포지션만 사용하여 수익성있는 정책을 제공하는 실용적인 알고리즘 트레이딩 방법인 SIRL-Trader를제안한다. SIRL-Trader는 오프라인/온라인 상태 표현 학습(Offline/OnlineState Representation Learning; Offline/Online SRL) 및 모방 강화학습을결합한 방법이다. 오프라인 상태 표현 학습은 차원 축소 및 군집화를 통해강력한 특징을 추출하는 반면, 온라인 상태 표현 학습은 회귀 모델과 강화학습 모델을 공동 학습하여 정확한 상태 정보를 제공한다. 모방 강화학습에서는 TD3에 다단계 학습과 동적 지연을 추가로 적용하고 행동 복제 기법을TD3(Twin-Delayed Deep Deterministic Policy Gradient) 알고리즘에 결합한다. 실험 결과 SIRL-Trader는 최근 방법보다 더 높은 수익을 내고 우수한 일반화 능력을 제공함을 보였다.
Algorithmic trading allows investors to profit from quantitative analysisand machine learning methods without human intervention. In recentyears, algorithmic trading using reinforcement learning has shown goodresults. To use reinforcement learning, there is challenge of extractingrobust features and learning a profitable trading policy. Also, algorithmictrading using short positions can be risky or practically impossible. Toaddress this challenge, we propose SIRL-Trader, a practical algorithmictrading method that provides a profitable policy using only long positions.SIRL-Trader is a method that combines offline/oline state representationlearning (SRL) and imitative reinforcement learning. Offline SRL extractsrobust features through dimensionality reduction and clustering, whereasOnline SRL provides accurate state information by co-train a regressionmodel and a reinforcement learning. In imitation reinforcement learning,multistep learning and dynamic delay are additionally applied to TD3(DeepDeterministic Policy Gradient) algorithm, and the behavior cloningiiitechnique is combined with the TD3. The experimental results show thatSIRL-Trader yields significantly higher profits and provides superiorgeneralization ability compared with state-of-the-art methods.