dCollection 디지털 학술정보 유통시스템

동영상 기반 물리적 감각 추론을 위한 경량화된 3D 컨볼루션 네트워크

An Efficient 3D Convolution Neural Network for Inferring Physical Interaction Force from Video

원문보기

주제(키워드) 딥러닝 , 머신러닝 , 인공신경망 , 로보틱스 , 컨볼루션 네트워크
발행기관 아주대학교
지도교수 황원준
발행년도 2019
학위수여년월 2019. 2
학위명 석사
학과 및 전공 일반대학원 컴퓨터공학과
실제URI http://www.dcollection.net/handler/ajou/000000028944
본문언어 한국어
저작권 아주대학교 논문은 저작권에 의해 보호받습니다.

초록/요약

As robotics technology evolves rapidly, technologies for replacing human labor with robots are being studied in many industry fields. At the same time, deep learning-based technology have enabled a recognition and an understanding of abstract data such as video, sound, and text. As a result of these two changes, many researches are trying to replace many industrial roles of humans with deep learning-based methods. In this thesis, we propose a novel and practical methods for inferring interaction forces between two objects only using video data. We have formulated our hypothesis that 3D convolution neural network can recognize and understand physical interactions through video like human can do. Our experimental results have confirmed our hypothesis and shows that the proposed model is more accurate and efficient than previous works. Moreover, we have designed a new architecture for 3D convolution neural network and the architecture shows a better accuracy even though it had a model size 10 times smaller than a previous work. We have collected heavy datasets for a validation and training of a proposed model. We collected about 400,000 video clips of physical interactions between two objects under various environments such as illumination, motion pattern and angle. As a result of our experiments, our proposed model shows robustness to these environmental changes and successfully estimate an interaction force between two objects.

초록/요약

로봇 산업의 발전과 함께 다양한 분야에서 인간의 노동과 산업적 역할을 로봇으로 대체하거나 자동화하기 위한 연구와 적용 시도들이 등장하고 있다. 특히나 인간을 대체하기 힘들었던 영상, 음성, 텍스트와 같은 정보를 활용한 상황 이해와 추론을 기계적인 방법으로 대체하고자 하는 연구가 다양하게 시도되고 있다. 이와 더불어 딥러닝 기반의 기법들이 데이터 기반의 분류, 탐색, 번역과 같이 다양한 분야에서 빠른 속도로 발전하고 있으며, 자연스럽게 이를 로봇 기반 서비스에 적용하고자 하는 수 많은 연구들이 제안되었다. 본 논문에서는 기존에 제한적인 센서에 의존해 이루어지던 로봇과 사물 간의 충돌에 대한 인식과 압력 기반의 감각 이해를 영상기반으로 대체할 수 있는 기법을 소개한다. 본 논문의 실험에서는 인간이 시각적인 정보와 사물에 대한 이해를 바탕으로 물리적 현상에 대한 추론이 가능하다는 사실을 바탕으로 이를 딥러닝으로 재현한다. 이를 위해 별도의 부가적인 정보를 사용하지 않고 물리적 접촉이 발생하는 상황의 영상만을 사용하여 높은 수준으로 충돌 압력을 예측할 수 있음을 실험적으로 증명하였으며, 이와 동시에 실제 로봇 및 모바일 기기에 적용될 수 있을 수준의 네트워크 경량화가 가능한 3D 컨볼루션 네트워크 설계 기법을 제안한다. 제안한 기법의 실험과 검증을 위해 네 가지 서로 다른 성질의 사물에 다양한 촬영 각도, 조도, 접촉 패턴을 설정해 약 400,000개의 동영상 클립(Clip) 샘플을 수집하였다. 수집한 데이터상에서 제안한 모델은 이전 연구 결과들보다 더욱 개선된 정확도를 보여주었으며, 실제 소형 장비에 사용될 수 있을 수준의 모델 경량화를 기록했다.

I. 서론 1
A. 연구 배경 1
B. 연구 목표 3
II. 관련 연구 4
III. 이론적 배경 및 제안 기법 5
A. Depthwise Separable Convolution 5
B. 3D Convolution Layer 7
C. 3D Depthwise Separable Convolution 8
D. 네트워크 구조 11
IV. 실험 환경 및 신경망 학습 13
A. 실험 데이터 13
B. 학습 방법 15
C. 학습 결과 16
V. 결과 분석 및 토의 18
A. 관련 연구 결과와의 비교 18
B. 다른 컨볼루션 네트워크 모델과의 비교 21
1. 2D ResNet 모델과의 비교 21
2. 3D 컨볼루션 네트워크와의 비교 22
VI. 결론 25
참고 문헌 26
Abstract 30

반출 Meta View 목록

검색 상세

동영상 기반 물리적 감각 추론을 위한 경량화된 3D 컨볼루션 네트워크

초록/요약

초록/요약

목차