검색 상세

동영상 기반 물리적 감각 추론을 위한 경량화된 3D 컨볼루션 네트워크

An Efficient 3D Convolution Neural Network for Inferring Physical Interaction Force from Video

초록/요약

As robotics technology evolves rapidly, technologies for replacing human labor with robots are being studied in many industry fields. At the same time, deep learning-based technology have enabled a recognition and an understanding of abstract data such as video, sound, and text. As a result of these two changes, many researches are trying to replace many industrial roles of humans with deep learning-based methods. In this thesis, we propose a novel and practical methods for inferring interaction forces between two objects only using video data. We have formulated our hypothesis that 3D convolution neural network can recognize and understand physical interactions through video like human can do. Our experimental results have confirmed our hypothesis and shows that the proposed model is more accurate and efficient than previous works. Moreover, we have designed a new architecture for 3D convolution neural network and the architecture shows a better accuracy even though it had a model size 10 times smaller than a previous work. We have collected heavy datasets for a validation and training of a proposed model. We collected about 400,000 video clips of physical interactions between two objects under various environments such as illumination, motion pattern and angle. As a result of our experiments, our proposed model shows robustness to these environmental changes and successfully estimate an interaction force between two objects.

more

초록/요약

로봇 산업의 발전과 함께 다양한 분야에서 인간의 노동과 산업적 역할을 로봇으로 대체하거나 자동화하기 위한 연구와 적용 시도들이 등장하고 있다. 특히나 인간을 대체하기 힘들었던 영상, 음성, 텍스트와 같은 정보를 활용한 상황 이해와 추론을 기계적인 방법으로 대체하고자 하는 연구가 다양하게 시도되고 있다. 이와 더불어 딥러닝 기반의 기법들이 데이터 기반의 분류, 탐색, 번역과 같이 다양한 분야에서 빠른 속도로 발전하고 있으며, 자연스럽게 이를 로봇 기반 서비스에 적용하고자 하는 수 많은 연구들이 제안되었다. 본 논문에서는 기존에 제한적인 센서에 의존해 이루어지던 로봇과 사물 간의 충돌에 대한 인식과 압력 기반의 감각 이해를 영상기반으로 대체할 수 있는 기법을 소개한다. 본 논문의 실험에서는 인간이 시각적인 정보와 사물에 대한 이해를 바탕으로 물리적 현상에 대한 추론이 가능하다는 사실을 바탕으로 이를 딥러닝으로 재현한다. 이를 위해 별도의 부가적인 정보를 사용하지 않고 물리적 접촉이 발생하는 상황의 영상만을 사용하여 높은 수준으로 충돌 압력을 예측할 수 있음을 실험적으로 증명하였으며, 이와 동시에 실제 로봇 및 모바일 기기에 적용될 수 있을 수준의 네트워크 경량화가 가능한 3D 컨볼루션 네트워크 설계 기법을 제안한다. 제안한 기법의 실험과 검증을 위해 네 가지 서로 다른 성질의 사물에 다양한 촬영 각도, 조도, 접촉 패턴을 설정해 약 400,000개의 동영상 클립(Clip) 샘플을 수집하였다. 수집한 데이터상에서 제안한 모델은 이전 연구 결과들보다 더욱 개선된 정확도를 보여주었으며, 실제 소형 장비에 사용될 수 있을 수준의 모델 경량화를 기록했다.

more

목차

I. 서론 1
A. 연구 배경 1
B. 연구 목표 3
II. 관련 연구 4
III. 이론적 배경 및 제안 기법 5
A. Depthwise Separable Convolution 5
B. 3D Convolution Layer 7
C. 3D Depthwise Separable Convolution 8
D. 네트워크 구조 11
IV. 실험 환경 및 신경망 학습 13
A. 실험 데이터 13
B. 학습 방법 15
C. 학습 결과 16
V. 결과 분석 및 토의 18
A. 관련 연구 결과와의 비교 18
B. 다른 컨볼루션 네트워크 모델과의 비교 21
1. 2D ResNet 모델과의 비교 21
2. 3D 컨볼루션 네트워크와의 비교 22
VI. 결론 25
참고 문헌 26
Abstract 30

more