검색 상세

효과적인 강화학습을 위한 상태 텐서 설계

State Tensor Design for Effective Reinforcement Learning

초록/요약

강화학습은 다양한 분야에서 많은 연구가 이뤄지고 있다. 하지만 강화학습은 환경의 상태와 에이전트의 행동이 다양해질수록 학습의 난이도가 급격하게 늘어나게 된다. 실제 현장은 환경을 정확히 표현하는 모델도 없을뿐더러 상태와 에이전트가 선택할 수 있는 행동이 훨씬 복잡해지고, 많아지기에 강화학습을 적용하기에는 아직 어려운 부분이 많다. 이에 본 연구에서는 효율적인 강화학습 실험을 위한 환경으로, 복잡한 상태와 다양한 행동이 필요한 시뮬레이터를 모델링하고 구축한다. 시뮬레이터 모델링에 관한 내용과 강화학습의 환경으로써의 의미를 설명하고, 시뮬레이터와 강화학습 에이전트간의 통신 프레임워크에 대해 설명한다. 환경에서 전달받는 상태를 환경 내 지형 정보를 포함하는 spatial feature와 환경 내 객체의 속성을 의미하는 non-spatial feature로 나누어 처리하여 학습을 진행하는 효율적인 상태 처리 네트워크를 전투 시뮬레이터에 적용하여 실험한다. 학습 결과, 각각의 정보만으로 학습시킨 것보다 따로 처리하여 함께 학습에 사용하는 것이 좋은 결과를 보였다. 새로운 분야에 강화학습을 적용할 때, 공간적 정보를 matrix로 제공하고, 속성 정보를 vector로 제공하여 사용한다면 효율적인 학습을 기대할 수 있다. 본 연구에서 사용한 시뮬레이터와 같이 복잡한 환경에서의 강화학습을 성공적으로 진행한다면, 강화학습은 지금보다 다양하고 복잡한 현장에서 적용될 수 있을 것이라 사료된다.

more

초록/요약

Reinforcement learning is being studied in various fields. However, in reinforcement learning, the difficulty of learning increases rapidly as the state of the environment and the behavior of the agent become more diverse. In the actual field, no models accurately represent the environment. There are still many difficult parts to applying reinforcement learning because the states and actions agents can choose are much more complicated and numerous. Therefore, in this study, as an environment for efficient reinforcement learning experiments, a simulator that requires complex states and various actions is modeled and built. The content of simulator modeling and its meaning as an environment for reinforcement learning are explained, and the communication framework between the simulator and the reinforcement learning agent is explained. An efficient state processing network that learns by dividing the state received from the environment into a spatial feature that includes topographical information in the environment and a non-spatial feature that means the property of entities in the environment is applied to a combat simulator and tested. As a result of the learning, it was better to process the information separately and use it together than to learn only each type of information. When applying reinforcement learning to a new field, efficient learning can be expected if spatial information is provided as a matrix and attribute information is provided as a vector. Suppose reinforcement learning is successfully conducted in a complex environment, such as the simulator used in this study. In that case, it is thought that reinforcement learning can be applied in more diverse and complex fields than now.

more

목차

제 1장 서론 1
제 1절 강화학습 1
제 2절 강화학습 종류 5
제 3절 연구 목적 6

제 2장 환경 구축 7
제 1절 시뮬레이터 7
제 2절 환경으로서의 시뮬레이터 10

제 3장 강화학습 프레임워크 구축 11
제 1절 강화학습 알고리즘 11
제 2절 상태 처리 네트워크 설계 13
제 3절 통신 프레임워크 17

제 4장 학습 방법 19
제 1절 상태 설계 19
제 2절 행동 설계 25
제 3절 보상 설계 27

제 5장 학습 결과 28

제 6장 결론 30

참고문헌 31
Abstract 35

more