검색 상세

Improving Cross-Lingual Neural Topic Modeling with Document-Level Prototype-based Contrastive Learning Seung-Won Seo

초록/요약

본 논문에서는 교차언어 주제 모델링에서 발생하는 두 가지 주요 문제점인 주제 불일치 문제와 언어 내 주제 해석력 저하 문제를 새롭게 정의하였다. 이 문제들을 해결하기 위해, 문서 수준의 프로토타입 기반 대조 학습 기법과 검색 알고리즘 기반의 positive 문서 샘플링 전략을 활용한 새로운 교차언어 신경 주제 모델링 프레임워크인 ProtoXTM을 제안한다. 광범위한 실험 결과를 통하여 ProtoXTM 은 기존의 모델들에 비해 교차언어 및 단일언어 주제 일관성 측면에서 우수한 성능을 보였으며, 전이 가능한 문서-주제 분포 추론 능력이 뛰어남을 보였다.

more

목차

1 Introduction 1
2 Related Works 5
2.1 Mono-lingual Topic Modeling 5
2.2 Cross-lingual Topic Modeling 5
2.3 Contrastive Learning 5
3 Proposed Methodology 7
3.1 Problem Setting 7
3.2 Overview: Model Architecture 7
3.2.1 Shared Encoder Network 7
3.2.2 Unified Latent Space 8
3.2.3 Double Decoder Network 9
3.3 ProtoXTM Framework 9
3.3.1 Stage 1: Pre-training and Document Clustering 9
3.3.2 Stage 2: Retrieval-based Positive Sampling 10
3.3.3 Stage 3: Topic Alignment by DPCL 11
3.3.4 Overall Training Objective 12
4 Experimental Setup 14
4.1 Datasets 14
4.2 Baselines 14
4.3 Evaluation Metrics 15
4.4 Implementation Details 17
4.5 Hyperparameter Setting 17
5 Main Results 18
5.1 Topic Quality 18
5.2 Doc-Topic Distribution Quality 19
6 Analysis 20
6.1 Ablation Study 20
6.2 Learning Strategy Analysis 21
6.3 Qualitative Analysis: Case Study 22
7 Conclusion 24
References 25
국문요약 32

more