검색 상세

GAN과 Transformer 모델을 활용한 자연어 생성 연구

Natural Language Generation Using GAN and Transformer Models

초록/요약

본 논문은 생성모델인 GAN(Generative Adversarial Network)과 최근 자연어 처리 분야에서 state-of-the-art를 갱신하고 있는 BERT(Bidirectional Encoder Representations from Transformer)의 기반이 되는 트랜스포머(Transformer) 모델을 사용하여 자연어를 효과적으로 생성하는 방안을 찾기 위한 연구이다. 특히 영상 처리 분야와는 달리, 그동안 자연어 생성에 GAN을 적용하는 연구는 상대적으로 활발하지 못하였으며, 이는 불연속적인 토큰(단어)으로 구성된 자연어의 특성과 학습이 불안정한 GAN의 특성에 기인한다고 볼 수 있다. 이로 인해 GAN을 이용하여 자연어 문장을 생성하는 경우, 동일한 어휘로 이루어진 하나의 문장만 반복적으로 나타나는 이른바 모드 붕괴(mode collapse) 현상이 발생한다. 또한, 학습이 진행될수록 이런 현상이 개선되는 것이 아니라 오히려 더 심해지는 문제가 존재한다. 따라서 본 연구에서는 GAN을 적용한 자연어 생성의 어려움을 극복하기 위해서, 기존에 연구된 다양한 기법들을 적용하였으며, GAN을 이용하여 안정적으로 자연어 문장을 생성할 수 있다는 것을 실험을 통해서 확인할 수 있었다. 우선 GAN의 생성자(generator) 네트워크의 자연어 출력 부분에 검벨 소프트맥스(Gumbel-softmax) 함수를 적용해서 불연속적인 이산형 데이터인 토큰을 GAN 네트워크에서 처리가 가능한 연속적인 형태로 변환하였다. 다음으로 불안정한 GAN의 학습을 개선하기 위해서 판별자(discriminator) 네트워크의 손실함수로 와서스테인(Wasserstein) 함수에 기울기 페널티(Gradient Penalty) 항을 추가한 WGAN-GP(Wasserstein GAN-Gradient Penalty) 모델을 적용했다. 이를 위해서 입력 부분에 미분이 불가능한 토큰 임베딩 레이어를 채택하고 있는 기존의 트랜스포머 모델을 수정해서 미분이 가능한 레이어로 교체하여 적용했다. 하지만 위와 같이 직접 트랜스포머 모델을 수정하여 적용함으로써, 결과적으로 트랜스포머 모델의 장점인 대규모 말뭉치를 이용해서 사전학습된 공개 모델을 활용하여 파인튜닝(fine-tuning)을 통해 성능을 향상할 수 있는 전이학습(transfer learning) 기법을 적용하지 못했다는 점과 이로 인해 생성된 자연어의 품질이 기대만큼 높지 않았다는 점은 아쉬움으로 남는다. 이 부분은 향후 BERT나 GPT-2(Generative Pre-Training-2)와 같이 최근 자연어 처리 분야에서 주목받고 있는 트랜스포머 기반의 모델을 응용하여 대규모 말뭉치를 이용한 사전학습을 통해서 개선할 수 있을 것으로 기대된다. 앞으로 지속적인 자연어 생성 품질 향상을 통해서, 다양한 분야에서 부족한 학습 데이터의 대량 확보나 시뮬레이션 환경 구축 등에 GAN이 본격적으로 활용될 수 있을 것으로 기대해 본다.

more

목차

제1장 서론 1
제1절 연구 배경 및 목적 1
제2절 연구 내용 및 방법 3

제2장 관련 연구 4
제1절 생성모델 4
제1항 생성모델의 개요 4
제2항 GAN 5
제2절 자연어 임베딩 11
제1항 자연어 처리를 위한 임베딩 11
제2항 문장 수준 임베딩 15
제3항 트랜스포머 19
제4항 BERT 24

제3장 자연어 생성을 위한 GAN 모델 28
제1절 자연어 생성을 위한 GAN 모델 적용 28
제1항 제안 모델 28
제2항 자연어 생성을 위한 GAN 모델 적용의 문제점 30
제2절 자연어 생성을 위한 GAN 모델 아키텍처 33
제1항 미분을 가능하게 하기 위한 모델 개선 33
제2항 생성자 상세 아키텍처 36
제3항 판별자 상세 아키텍처 38
제4항 GAN 전체 아키텍처 40

제4장 실험 및 결과 42
제1절 실험 42
제1항 실험 진행 절차 42
제2항 학습 데이터 준비 43
제3항 어휘집 생성 43
제4항 학습 데이터 전처리 45
제5항 트랜스포머 모델 사전학습 46
제6항 GAN 모델 학습 47
제2절 실험 결과 49
제1항 일반 GAN 모델을 적용한 실험 49
제2항 WGAN-GP 모델을 적용한 실험 56
제3항 실험 결과 요약 58

제5장 결론 및 향후 연구과제 60
제1절 결론 60
제2절 향후 연구과제 62

참고문헌 63

more