양자화된 다국어 대규모 언어 모델의 한국어 성능 최적화 방안 연구
A Study on Optimizing Korean Performance in Quantized Multilingual LLMs
- 주제(키워드) LLM , Quantization
- 주제(DDC) 658.5
- 발행기관 아주대학교 일반대학원
- 지도교수 최진영
- 발행년도 2025
- 학위수여년월 2025. 8
- 학위명 석사
- 학과 및 전공 일반대학원 산업공학과
- 실제URI http://www.dcollection.net/handler/ajou/000000035186
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
현재 대규모 언어 모델(LLM)은 자연어 처리 분야에서 뛰어난 성능을 보이지 만, 많은 자원을 요구하여 실시간 환경이나 제한된 기기에서의 활용이 어렵다. 이를 해결하기 위해 모델 크기와 연산량을 줄이는 양자화(Quantization) 기술 이 연구되어 왔으며 최근의 양자화 기술은 성능을 거의 그대로 보존하면서 가중치를 4비트 혹은 그 이하로 양자화하는 데 성공하였다. 그러나 대부분의 양자화 연구는 영어를 중심으로 진행되고 한국어와 같은 저자원 언어는 소외되고 있으며, 이러한 상황에서 최근 양자화된 LLM에서 영어에 비해 비영어권 언어의 성능 저하가 더 크게 발생한다는 문제가 제기되었다. 본 연구에서도 이를 검증 한 결과 LLM을 양자화할 경우 한국어 성능의 하락이 영어 성능의 하락에 비해 더욱 크게 나타나는 것을 확인할 수 있었다. 본 연구는 이러한 문제를 해결하기 위해 한국어에 최적화된 양자화 전략인 LAPE 기반 AWQ를 제안한다. 구체적으로는, AWQ 기법을 기반으로 하되 LAPE를 통해 한국어에 특화된 뉴런을 식별하여 그 가중치를 보존함으로써 성능 저하를 최소화한다. 현재 한국어를 포함한 다국어에 뛰어난 성능을 보이는 LLM인 Google의 Gemma 2(9B)와 Meta의 Llama 3.2(3B) 모델을 대상으로 기존 AWQ와 본 연구에서 제안한 LAPE 기반 AWQ를 각각 적용하고 벤치마크를 수행한 결과 LAPE 기반 AWQ는 기존 AWQ보다 한국어 성능이 Gemma2(9B)에서는 약 3.6%, Llama3.2(3B)에서는 약 15.7% 개선되었다. 그리고 기존 LAPE 방법의 한계점을 분석하고 최적화를 수행하여 추가로 Llama3.2(3B) 모델에 대해 약 17.9%의 성능 향상과 약 15.5%의 LAPE 계산 시간 단축을 달성하였다. 이는 본 연구에서 제안한 LAPE 기반 AWQ 방법론이 양자화된 다국어 LLM 환경 에서도 한국어와 같은 비영어권 언어에 대해 손실되는 성능을 최소화할 수 있음을 실증함으로써, 제한된 컴퓨팅 자원에서도 다국어 LLM의 실용성과 확장성을 높일 수 있는 해법을 제시한다.
more초록/요약
While large language models (LLMs) demonstrate outstanding performance in natural language processing, their substantial resource requirements make deployment challenging in real-time environments or resource-constrained devices. To address this issue, quantization techniques that reduce model size and computational overhead have been extensively studied, with recent advances successfully achieving 4-bit or lower weight quantization while preserving near-original performance. However, most quantization research focuses primarily on English, leaving low-resource languages like Korean underrepresented. Recent studies have highlighted that quantized LLMs exhibit greater performance degradation for non-English languages compared to English. Our investigation confirms this phenomenon, showing that Korean performance deteriorates more significantly than English performance when LLMs are quantized. To address this challenge, this study proposes LAPE-based AWQ, a Korean-optimized quantization strategy. Specifically, building upon the AWQ technique, we identify Korean-specific neurons through LAPE and preserve their weights to minimize performance degradation. We applied both conventional AWQ and our proposed LAPE-based AWQ to Google's Gemma 2 (9B) and Meta's Llama 3.2 (3B) models, which demonstrate excellent performance in multilingual tasks including Korean. Benchmark results show that LAPE-based AWQ achieves approximately 3.6% improvement in Korean performance for Gemma 2 (9B) and approximately 15.7% improvement for Llama 3.2 (3B) compared to conventional AWQ. Furthermore, by analyzing and optimizing the limitations of the existing LAPE method, we achieved an additional 17.9% performance improvement and 15.5% reduction in LAPE computation time for the Llama 3.2 (3B) model. These results demonstrate that our proposed LAPE-based AWQ methodology can minimize performance loss for non-English languages like Korean in quantized multilingual LLM environments, presenting a solution that enhances the practicality and scalability of multilingual LLMs even under limited computational resources.
more목차
제 1 장 서론 1
제 1 절 연구 배경 및 필요성 1
제 2 절 연구 목적 및 접근 방법 2
제 3 절 논문 구성 3
제 2 장 관련 연구 4
제 1 절 기존 연구 분류 4
1. LLM의 양자화와 관련된 연구 4
2. LLM의 다국어 처리 구조 및 성능에 대한 연구 6
3. 양자화된 LLM의 다국어 성능과 관련된 연구 7
제 2 절 기존 연구의 한계점 7
제 3 장 문제 정의 및 접근 방법 10
제 1 절 문제 정의 10
1. 기존 양자화 기법의 다국어 성능 저하 문제 10
2. 벤치마크를 통한 한국어 성능 저하 문제 검증 11
제 2 절 한국어 성능이 개선된 LAPE 기반 AWQ 설계 13
1. LAPE를 통한 언어 특화 뉴런 판별 13
2. LAPE 기반 AWQ 설계 23
제 4 장 성능 실험 및 최적화 29
제 1 절 성능 실험 29
제 2 절 LAPE 최적화 및 성능 개선 30
제 5 장 결론 40
참고 문헌 42

