검색 상세

역 평형 상태의 후루타 진자에 대한 물리 무작위화를 이용한 Sim-to-Real 전달 연구

초록/요약

후루타 진자는 1992년 도쿄 공과대학교에서 후루타 가쓰히사에 의해 발명되었으며, 제어 시스템 이론에서 주로 사용되는 시스템이다.[1-4] 이 진자는 중력 및 코리올리 힘, 구심력의 복잡한 상관관계를 가지고 있어 매우 비선형적인 동작을 하게 된다. 이러한 해석의 어려움 때문에, 대부분의 이전 연구는 Furuta pendulum의 3축 관성 모멘트 중 일부를 무시하거나 대칭적이라고 가정함으로써 시스템을 단순화했다.[5-7] 이러한 복잡한 물리 법칙이 적용되는 Furuta pendulum을 제어하기 위해 최근 연구들은 복잡한 비선형 문제를 해결하기보다는 기계 학습을 이용해 제어하고자 하였다. 본 논문에서는 Furuta pendulum을 제어하기 위한 다양한 보상 함수들을 선정하고 실제 학습을 통해 보상 함수의 효과를 확인하여 새로운 형태의 보상함수를 제시한다. 새로운 형태의 보상 함수는 코사인 함수의 모습으로 기존에 비하여 5배 빠른 학습 속도를 가지며, 학습이 완료된 NN모델에 대하여 안정적인 모습을 보여주었다. 또한, 새롭게 만들어진 보상 함수를 기반으로 물리 무작위화 기술을 이용하여 Sim-to-real 전이를 실현시키고 이를 통해 강화학습의 효율을 높이는 방법을 소개한다. Sim-to-real 전이는 가상현실에서 학습시킨 NN모델을 실제 시스템에 적용시킬 수 있도록 하는 방법으로, 가상환경에서 학습을 진행하기 때문에 학습에 걸리는 시간과 비용을 획기적으로 줄일 수 있다는 장점을 가지고 있다.[8] 이러한 방법은 Furuta pendulum에 국한되지 않고 다양한 형태의 산업용 로봇에 대해 적용이 가능하기 때문에 광범위적인 영역에서 적용 가능하기 때문에 매우 중요한 기술로 판단된다.

more

목차

1. 서론 1
2. 본론 5
2.1 후루타 진자 모델링 및 시뮬레이션 환경 구축 5
2.1.1 후루타 진자의 운동방정식 풀이 5
2.1.2 시뮬레이션의 환경 구축 10
2.2 시뮬레이션 내의 보상 함수 설계 15
2.2.1 기존 보상 함수의 학습 결과 및 문제점 15
2.2.2 개발된 보상 함수의 학습 결과 및 강점 20
2.3 Sim-to-Real 전달 연구 27
2.3.1 물리 무작위화의 정의 및 범위 설정 27
2.3.2 물리 무작위화를 적용한 학습 및 실제 모델 적용 31
3. 결론 34
참고문헌 35

more