검색 상세

GPU 플랫폼상 Pruned Large Language Model (LLM) 성능 분석

Performance Analysis of a Pruned Large Language Model Across Different GPU Platforms

초록/요약

최근, 자연어 처리 분야에서 대량의 데이터를 기반으로 학습된 Large Language Model (LLM)이 등장하였다. LLM은 많은 양의 텍스트 데이터로부터 패턴을 학습하여 다양한 언어 작업에서 뛰어난 성능을 보이는 모델로, GPT-3와 같은 모델들이 이에 속한다. 이러한 LLM의 활용 가능성과 수요는 계속해서 증가하고 있다. LLM은 방대한 모델 파라미터와 연산량으로 인해 주로 클라우드 환경에서 처리되며, 사용자에게는 결과만 전달된다. 클라우드의 보안 강화와 일관된 서비스 접근성을 위해 엣지 단말에서의 실행이 요구되지만, 모델의 크기로 인한 제약이 존재한다. 본 학위 논문에서는 프루닝 (Pruning) 기법을 이용하여 LLM의 경량화 방법을 제안한다. 이는 모든 레이어를 동일한 기준으로 프루닝 하는 것이 아닌 각 레이어, 연산마다 최적의 프루닝 비율을 도출함으로써 성능유지 및 모델 경량화 방법을 제안한다. 이와 더불어, 희소 행렬 연산을 사용하여 프루닝이 진행된 LLM의 성능 측정 및 분석을 진행했으며, 이를 바탕으로 단말에서의 LLM 경량화 방향과 희소 행렬 연산의 최적화 방향성을 제시한다.

more

목차

제1장. 서론 1
제2장. 관련 연구 3
제 2.1절 가중치 프루닝 3
제3장. 배경지식 6
제 3.1절 Large Language Model (LLM)의 동작 방식 6
제 3.2절 크기 기반 프루닝 (Magnitude Pruning, MP) 9
제 3.3절 NVIDIA GPU 구조 및 희소 연산 라이브러리 10
제 3.3.1항 NVIDIA GPU 구조 10
제 3.3.2항 희소 행렬의 데이터 표현 11
제 3.3.3항 희소 행렬 연산 라이브러리 13
제4장 제안하는 LLM 프루닝 방법 15
제 4.1절 동일 프루닝 비율 적용에 따른 LLM 성능변화 15
제 4.2절 프루닝 연산 종류에 따른 LLM 성능변화 16
제 4.3절 제안하는 LLM 프루닝 방법 20
제5장 실험 22
제 5.1절 실험환경 22
제 5.2절 실험설계 23
제 5.3절 실험 결과 및 분석 24
제 5.3.1항 LLM 프루닝으로 인한 메모리 사용량 감소 24
제 5.3.2항 LLM 프루닝의 모델 성능유지 25
제 5.3.3항 희소 행렬 연산으로 인한 실행시간 향상 26
제 5.3.4항 각 GPU 플랫폼에서의 LLM 실행시간 비교 27
제6장 개선 사항 논의 28
제 6.1절 사용자 파라미터를 조절한 성능변화 28
제 6.2절 희소 행렬 연산의 최적화 방향성 32
제7장 결론 33
참 고 문 헌 34

more