검색 상세

실시간 의미론적 영역 분할을 위한 공간-채널 팽창 합성곱

Spatio-Channel Dilated Convolutions for Real-Time Semantic Segmentation

초록/요약

최근 실시간 의미론적 영역 분할을 위한 효율적인 심층 합성곱 신경망(DCNN) 개발에 대한 관심이 높아지고 있다. 본 논문에서는 분할-변환-결합 원리에 기초한 구조화된 희소 커널들로 구성된 효율적인 합성곱 기법인, 공간-채널 팽창 합성곱(Spatio-Channel Dilated Convolution)(SCDC)을 제안한다. 구체적으로는, 채널 샘플링 접근법을 이용하여 공간 영역뿐만 아니라 채널 영역에서도 팽창된 모양의 합성곱 필터를 이용한다. 공간-채널 팽창 합성곱(SCDC)을 기반으로, 효율적인 합성곱 모듈인 ESC(Efficient Spatio-Channel dilated convolution) 모듈을 제안한다. 또한, 임베디드 기기에 쉽게 적용할 수 있는 최신 실시간 의미분할 네트워크 중 하나인 ESPNet 구조에 ESC 모듈을 적용하여 개선시킨 ESCNet을 제안한다. Cityscapes 데이터셋을 이용하여 ESCNet을 평가한 결과, 정확성과 계산 비용 사이의 좋은 절충으로 경쟁력있는 결과를 얻었다. 제안하는 ESCNet은 단 196K 개의 네트워크 매개 변수로 61.5% 의 mIoU(mean Intersection over Union)의 정확도를 보였고, 일반적인 GPU 환경에서 고해상도 영상을 164 FPS(Frame Per Second)의 속도로 처리한다. 다양한 실험 결과를 통해 제안하는 기법이 합리적으로 정확하고 빠르다는 것을 알 수 있다.

more

목차

1. 서론 1
2. 관련 연구 4
2.1 엔코더-디코더 구조 4
2.2 실시간 의미론적 영역 분할 기법 4
2.2.1 팽창 합성곱 4
2.2.2 그룹 합성곱 5
2.2.3 채널별 분리 합성곱 6
2.2.4 비대칭 합성곱 6
3. 제안하는 방법 7
3.1 공간-채널 팽창 합성곱 7
3.2 ESC 모듈 9
3.3 ESCNet 10
3.4 연산량 비교 11
4. 실험 결과 17
4.1 데이터셋 17
4.2 실험 세부 방법 17
4.3 평가 지표 18
4.4 Ablation 연구 19
4.4.1 채널 샘플링 19
4.4.2 ESC 모듈의 세부 설정 20
4.5 Cityscapes 결과 23
4.6 CamVid 결과 25
5. 결론 31

more