검색 상세

효율적인 딥러닝 모델을 위한 이진 양자화 및 모델 압축

초록/요약

최근 고성능 GPU(Graphics Processing Unit) 기반의 컴퓨팅 자원을 바탕으로 학습한 딥러닝(Deep Learning) 모델들은 매우 높은 정확도를 보여주고 있다. 그러나 딥러닝 모델을 모바일 시스템, 임베디드 시스템과 같은 제한된 리소스를 가진 경량 장치에 배포하기 위해서는 딥러닝 경량화 및 효율화는 필수이다. 본 논문에서는 디바이스 위에 딥러닝 모델을 효율적으로 구성하기 위해 두가지 네트워크를 제안한다. Real Full Binary Weight Network는 뉴럴네트워크의 weight를 +1과 -1로 구성해 weight 크기를 기존 float대비 약 32배정도 절약할 수 있는 네트워크를 제안한다. 또한 HW에 내재화하기 위해 activation값을 8bit quantization을 진행해 32bit 사용을 최소화하였다. 해당 네트워크는 Cifar 기반 이미지분류 문제에 우선 검증했다. 또한 본 논문의 목표인 자막, 로고 검출기를 개발하기 위해 YOLO v2 [15]의 Tiny YOLO의 Channel 크기를 줄여 Backbone으로 사용하여 검출기를 제작했다. 이는 기존 Tiny YOLO대비 약 100배 메모리 크기를 줄일 수 있었다. 해당 기법의 유효성을 입증하기 위해 VOC dataset 뿐만 아니라 자막, 로고 dataset에서 실험을 진행하였으며 이를 통해 하드웨어에 내재화 가능 수준의 검출기를 제작하였다. 또한 본 논문은 Activation과 Weight 모두 이진화한 BNN을 제안했다. 두 가지 모두 이진화해 컨볼루션 연산을 곱하기 연산대신 bit연산이 가능해져 훨씬 효율적인 네트워크를 제안했다. 하지만 단순히 학습할 경우 성능저하가 있어 본 논문은 Knowledge distillation을 도입해 Full-precision 네트워크 정확도와 유사한 BNN네트워크를 제안했다.

more

목차

Ⅰ. Introduction 1
Ⅱ. Related Work 4
A. Object Detection 4
B. Design Efficient Model 4
C. Quantized Neural Network 5
Ⅲ. Proposed Method 7
A. Baseline 7
1. Real Full Binary Weight Network 7
B. YOLO v2 Channel Reduction & 8bit Quantization 10
C. ResNet based Binary Neural Network & Knowledge Distillation 13
Ⅳ. Dataset & Experiment 16
A. 자막, 로고 데이터셋 16
B. Cifar-10,100 & Pascal VOC 17
C. 실험 환경 및 네트워크 구성 17
Ⅴ. Experiment Result 19
A. Real Full Binary Weight Network 실험결과 19
B. 자막 검출기 실험결과 21
C. 자막 + 로고 검출기 실험결과 23
D. Resnet based Binary Neural Network & Knowledge Distillation 26
Ⅵ. Ablation Study 28
A. 1x3 Network 28
Ⅶ. Conclusion 30
Reference 31

more