SV-RCNN : Robust Structural-Encoded Voxel Features for 3D Object Detection on Sparse Point Clouds
- 주제(키워드) 3D Object Detection , LiDAR Perception , Structural Convolution , Learnable Receptive Field , Generalization
- 발행기관 아주대학교 일반대학원
- 지도교수 이수목
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 D.N.A.플러스융합학과
- 실제URI http://www.dcollection.net/handler/ajou/000000035814
- 본문언어 영어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
3D object detection using LiDAR point clouds remains a challenging task, especially in sparse scenes or unfamiliar environments. The difficulty becomes more prominent when detecting small or structurally complex objects such as pedestrians, which require fine-grained geometric features for accurate recognition. Conventional voxel-based detectors often rely on uniform pooling or MLP-based encoders that fail to capture intra-voxel geometric structure, limiting their effectiveness under varying densities or object scales. Moreover, fixed-radius neighborhood queries restrict the model’s ability to adapt to spatial variation across scenes. To overcome these limitations, we propose Structural Voxel RCNN (SV-RCNN), a generalizable 3D detector that explicitly encodes voxel-internal geometry using structural convolutions. In addition, a learnable receptive field module dynamically adjusts neighborhood grouping based on local geometry, enabling adaptive feature aggregation. Experiments on KITTI and JRDB demonstrate that SV-RCNN improves accuracy for small and sparse objects while reducing false positives. The model also shows strong zero-shot generalization, outperforming domain-adaptive baselines without requiring target fine-tuning. These results highlight the importance of structure-aware encoding and adaptive receptive fields for robust 3D perception.
more초록/요약
LiDAR 포인트클라우드를 활용한 3차원 객체 검출은 특히 포인트가 희소하거나 익숙하지 않은 환경에서 여전히 어려운 과제이다. 이러한 문제는 보행자처럼 작거나 구조적으로 복잡한 객체를 탐지할 때 더욱 두드러지며, 정밀한 기하 구조의 표현이 필수적이다. 기존의 복셀 기반 검출기는 복셀 내부 구조를 고려하지 않은 균일 풀링이나 단순 MLP 기반 인코더에 의존하기 때문에, 밀도나 객체 크기의 변화에 유연하게 대응하지 못한다. 또한, 고정 반경 기반 이웃 선택 방식은 장면의 공간적 다양성을 반영하는 데 한계가 있다. 이러한 문제를 해결하기 위해, 본 논문에서는 복셀 내부의 기하 구조를 명시적으로 인코딩하는 구조적 합성곱 기반의 3차원 객체 검출기인 SV-RCNN을 제안한다. 아울러, 주변의 포인트 분포에 따라 이웃 범위를 동적으로 조절하는학습 가능한 수용영역(Learnable Receptive Field)을 도입하여 적응적인 피처 집계를 가능하게 하였다. KITTI, JRDB를 사용한 벤치마크 실험을 통해 SV-RCNN은 작은 객체나 희소한 상황에서도 높은 정확도와 낮은 오탐률을 유지하는 것으로 나타났다. 특히 별도의 도메인 적응 없이도 강력한 제로샷 일반화 성능을 보였으며, 이는 구조 기반 인코딩과 수용영역 적응이 실제 환경의 3차원 인식 성능을 높이는 핵심 요소임을 보여준다.
more목차
I INTRODUCTION 1
II RELATED WORKS 4
1 Point Cloud-based 3D Object Detection 4
2 Feature Grouping and Aggregation 6
III METHODS 8
1 Structural Convolution Operation 9
2 SCN-based Voxel Feature Extraction 11
3 Learnable Receptive Field Grouping 12
A Fixed-radius Ball Query Grouping 12
B Gaussian-based Adaptive Grouping 13
IV EXPERIEMENTS 15
1 Experiment Setup 15
A Datasets 15
B Evaluation Metrics 16
C Implementation Details 16
2 Results 17
A KITTI Results 17
B JRDB Results 20
3 Ablation Study 21
A Effect of Voxel Size 23
B Effectiveness of Learnable Receptive Fields 24
C Robustness under Point Cloud Sparsity 24
D Cross-Dataset Generalization 25
V CONCLUSION 28
Bibliography 29
국문 초록 34

