항암 부작용 등급 추론을 위한 소형 언어 모델 성능 개선 연구
- 주제(키워드) 소형 언어 모델 , 미세 조정 , 부작용 등급 판정 , 의료 대화 데이터 , 데이터 증강
- 주제(DDC) 004.6
- 발행기관 아주대학교 일반대학원
- 지도교수 김재훈
- 발행년도 2026
- 학위수여년월 2026. 2
- 학위명 석사
- 학과 및 전공 일반대학원 AI융합네트워크학과
- 실제URI http://www.dcollection.net/handler/ajou/000000036119
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
항암 치료 과정에서 부작용에 대한 관찰은 필수적이며, 부작용의 중증도를 직접 평가하는 의료진 인력 소모를 줄이기 위한 부작용 평가 자동화에 대한 연구가 진행되어 왔다. 본 연구에서는 소형 언어 모델의 부작용 등급 추론 성능을 개선하기 위한 방안을 탐구한다. 7B 규모의 언어 모델을 대상으로 실제 대화 데이터와 생성 대화 데이터를 활용하여 미세 조정을 수행하였으며, 이에 대하여 평가하였다. 그 결과, 미세 조정을 하지 않은 base 모델 대비 최대 18%p 향상된 약 93%의 정확도를 보였으며, 등급 판정을 완료한 비율 또한 증가하였다. 본 연구는 소형 언어 모델 기반 부작용 등급 평가 자동화 및 챗봇 운영의 실현 가능성을 제시한다. 주제어: 소형 언어 모델, 미세 조정, 부작용 등급 판정, 의료 대화 데이터, 데이터 증강
more초록/요약
Monitoring adverse events during cancer treatment is essential, and research on automating adverse event evaluation has been actively pursued to reduce the burden on healthcare professionals. This study explores methods to improve the performance of small language models for adverse event grade prediction. A 7B-parameter language model was fine-tuned using both real dialogue data and synthetic dialogue data, and its performance was evaluated accordingly. As a result, the fine-tuned model achieved approximately 93% accuracy which is an improvement of up to 18 percentage points compared with the base model without fine-tuning and also demonstrated an increased rate of completed grade predictions. This study highlights the feasibility of automating adverse event grading and implementing clinical chatbots using small language models. Keywords: Small Language Model, Fine-Tuning, Adverse Event Grading, Clinical Dialogue Data, Data Augmentation
more목차
제1장 서론 1
제2장 관련 연구 3
제1절 CTCAE 평가 자동화를 위한 자연어처리 기반 접근 3
제2절 대화형 데이터 증강 5
제3장 실험 설계 7
제1절 연구 목적 및 실험 목적 7
제2절 소형 언어 모델 8
제3절 프롬프트 9
제4절 데이터 12
1. 부작용 증상 정보 12
2. 실제 데이터 13
3. 생성 데이터 15
4. 데이터 재구성 17
제5절 실험 구성 19
1. 실험1 (생성 데이터 추가에 따른 성능 변화 관찰) 19
2. 실험2 (실제 데이터 추가에 따른 성능 변화 관찰) 21
제6절 그 외 실험 환경 22
제7절 평가 지표 22
제4장 실험 결과 24
제1절 실험1 결과 24
1. 등급 판정 정확도 및 가중 f1 점수 24
2. 등급별 판정 정확도와 혼동행렬 26
3. 추가 질문 수에 따른 등급 판정 완료도와 정확도 28
제2절 실험2 결과 31
1. 등급 판정 정확도 및 가중 f1 점수 31
2. 등급별 판정 정확도와 혼동행렬 33
3. 추가 질문 수에 따른 등급 판정 완료도와 정확도 35
제5장 결론 및 한계 38
참고문헌 40
Abstract 43

