검색 상세

Long-tailed Multi-Target Test Time Adaptation via Neural Memory

신경 메모리를 이용한 다중 불균형 분포에서의 실시간 적응기법

초록/요약

딥 뉴럴 네트워크(Deep Neural Networks, DNNs)는 다양한 응용 분야에서 뛰어난 성 능을 보여왔다. 그러나 기존의 테스트 시점 적응(Test-Time Adaptation, TTA) 기법은 모 든 테스트 샘플을 단일 분포로 간주함으로써, 특정 도메인의 빈도가 높을 때 그 도메인 에 과도하게 적응(overadaptation)하는 문제가 발생하여 다중 도메인 환경에서 일관된 성능을 유지하지 못한다. 이러한 한계를 해소하기 위해, 우리는 Domain Aware Neural Memory (DANM)라는 새로운 TTA 프레임워크를 제안한다. DANM은 대상 도메인의 개수를 사전에 정의하지 않으며, 지배적인(dominant) 클래스에 대한 편향 없이 롱테일 (long-tailed) 다중 도메인 데이터 스트림을 효과적으로 처리한다. 또한, 우리는 엔트로피 최소화(entropy-minimization) 손실 항을 도입하여, 모델이 신뢰도 높은 샘플에 대해서만 더욱 명확한 예측을 하도록 유도한다. 본 연구에서는 timm 라이브러리 1를 통해 확보한 비 전 트랜스포머 베이스(ViT-B)와 CLIP 비주얼 인코더라는 두 가지 모델 아키텍처를 사용해 DANM을 검증했다. 다양한 불균형 비율(imbalance ratio)에 대해 DANM의 강인성을 평 가하고, 해당 불균형 정도가 모델 성능에 미치는 영향을 관찰하였다. 그 결과, 고성능 모델 및 대규모 데이터셋(예: ImageNet-C에서의 ViT) 환경에서 DANM이 특히 우수한 성능을 보이지만, 소규모 도메인으로 확장하기 위해서는 추가적인 메커니즘이 필요함을 시사한다. 마지막으로, 코사인 유사도(cosine similarity)와 같은 척도에서 음의 항(negative term)을 단순 선형 덧셈 방식이 아닌 기하학적(geometric) 관점에서 처리하는 것이 더 바람직함을 확인하였다.

more

초록/요약

Deep Neural Networks (DNNs) have demonstrated remarkable performance across di- verse application fields. However, traditional TTA frameworks fail to maintain consistent performance across multiple domains because they treat all test samples as originating from a single distribution, leading to overadaptation on frequently observed samples. To address these limitations, we propose a novel Test-Time Adaptation (TTA) framework called Domain Aware Neural Memory (DANM), which neither predefines the number of target domains nor suffers from bias toward dominant classes. DANM handles long-tailed, multi-domain data streams without requiring prior knowledge of the domain count. In addition, we introduce an entropy-minimization loss term to encourage sharper predictions on target data, but only for easy samples. We conduct experiments on two main model architectures: a Vision Trans- former Base (ViT-B) and a CLIP Visual Encoder, both obtained from the texttttimm library https://github.com/huggingface/pytorch-image-models. We evaluate the robustness of our approach with respect to various imbalance ratios and monitor their influence on model per- formance. We demonstrate that our approach is particularly well-suited for high-capacity models and large-scale datasets (e.g., ViT on ImageNet-C), but it may require additional mechanisms to extend its effectiveness to smaller-scale domains. We infer that, for a mea- sure such as cosine similarity, a geometric treatment of the negative term is preferable to a simple linear addition.

more

목차

I. INTRODUCTION 1
II. PRELIMINARY AND PROBLEM STATEMENT 4
1. FullyTestTimeAdaptation 4
2. Long-tailed Multi Target Test Time Adaptation 4
III. RELATED WORKS 6
0. Domain Adaptation: Before Test Time Adaptation 6
1. TestTimeAdaptation 7
2. Long-tailedProblem 8
3. Neural Memory 8
IV. METHODS 10
1. OverallArchitecture 10
2. Easy Samples: Memory Storage and Normalization Update 10
3. Hard Samples: Retrieving from Memory 12
4. Summary 12
5. OverallArchitecture 13
V. EXPERIEMENTS 14
1. Evaluation Setup 14
A. Implementation Details 14
B. Evaluation Benchmark 15
C. Evaluation Metric 16
2. Evaluation Results 17
A. Performance Evaluation in Long-tailed Multi Target Test Time Adap- tationBenchmarks 17
B. AblationStudy 19
VI. CONCLUSION 23
Bibliography 24
국문 초록 28

more