dCollection 디지털 학술정보 유통시스템

강화학습 기반의 최적 Pub/Sub 메커니즘 설계

A Design of Efficient Pub/Sub Mechanism using Reinforcement Learning

원문보기

주제(키워드) MQTT , Reinforcement Learning , Q-learning , Policy gradient learning
발행기관 아주대학교
지도교수 김재훈
발행년도 2019
학위수여년월 2019. 2
학위명 석사
학과 및 전공 일반대학원 산업공학과
실제URI http://www.dcollection.net/handler/ajou/000000028687
본문언어 한국어
저작권 아주대학교 논문은 저작권에 의해 보호받습니다.

초록/요약

MQTT는 Publish/Subscribe 기반의 경량 메시지 프로토콜로, IoT 환경에서 주로 사용되고 있다. 기존의 MQTT 시스템은 subscriber가 subscribe 요청을 하면 지속적인 연결을 통해 요청받은 특정 토픽에 관한 메시지를 받을 때 실시간으로 전달해주는 구조를 가진다. 이 때문에 메시지들이 끊임없이 publish되는 IoT 환경에서는 불필요한 통신이 많이 생기게 되며 이로 인한 전력 소모도 발생하게 된다. 따라서 본 논문에서는 메시지의 중요도에 따라 subscribe 주기를 조절하여 주기에 맞춰 메시지를 한 번에 전송하는 구조를 제안함으로써 비효율적인 통신 구조를 개선하였다. 중요한 메시지가 자주 오면 주기를 줄이고, 중요하지 않은 메시지가 대부분의 통신을 차지하면 주기를 늘리는 것을 강화학습을 적용해 설계하였다. 강화학습 방법으로는 value-based learning을 대표하는 Q-learning과 policy-based learning을 대표하는 policy gradient learning 두 가지 학습방법을 비교하며 실험을 진행하였다. 그 결과 보상이 증가함을 확인할 수 있었고, 전력 소모량 또한 기존 MQTT 시스템과 비교했을 때 약 40-50% 가까이 감소함을 보였다.

제1장 서 론 1
제2장 관련 연구 3
제1절 MQTT를 통한 IoT 시스템 구축에 관한 연구 3
제2절 저전력 IoT 시스템에 관한 연구 3
제3절 MQTT 프로토콜 전력량에 관한 연구 4
제3장 강화학습 방법 5
제1절 강화학습 5
제2절 Value-based learning: Q-learning 7
제3절 Policy-based learning: Policy gradient learning 9

제4장 모델 설계 및 개발 10
제1절 MQTT 기본 구조 10
제2절 데이터의 중요도에 따른 MQTT 모델 설계 11
1. 상태(State) 12
2. 보상(Reward) 13
3. 행동(Action) 16
제3절 시스템 구현 및 개발 17
1. MQTT 시스템 구현 17
2. 강화학습 모델 구현 17
제5장 실험 22
제1절 실험 시나리오 22
1. 실험 데이터 및 설계 22
2. reward 함수 결정 25
제2절 실험 결과 28
1. 학습 과정 28
2. 전력 소모량 측정 및 비교 29
제6장 결 론 33
참고 문헌 34
ABSTRACT 37

반출 Meta View 목록

아주대학교

검색 상세

강화학습 기반의 최적 Pub/Sub 메커니즘 설계

초록/요약

목차