dCollection 디지털 학술정보 유통시스템

항암 부작용 등급 추론을 위한 소형 언어 모델 성능 개선 연구

원문보기

주제(키워드) 소형 언어 모델 , 미세 조정 , 부작용 등급 판정 , 의료 대화 데이터 , 데이터 증강
주제(DDC) 004.6
발행기관 아주대학교 일반대학원
지도교수 김재훈
발행년도 2026
학위수여년월 2026. 2
학위명 석사
학과 및 전공 일반대학원 AI융합네트워크학과
실제URI http://www.dcollection.net/handler/ajou/000000036119
본문언어 한국어
저작권 아주대학교 논문은 저작권에 의해 보호받습니다.

초록/요약

항암 치료 과정에서 부작용에 대한 관찰은 필수적이며, 부작용의 중증도를 직접 평가하는 의료진 인력 소모를 줄이기 위한 부작용 평가 자동화에 대한 연구가 진행되어 왔다. 본 연구에서는 소형 언어 모델의 부작용 등급 추론 성능을 개선하기 위한 방안을 탐구한다. 7B 규모의 언어 모델을 대상으로 실제 대화 데이터와 생성 대화 데이터를 활용하여 미세 조정을 수행하였으며, 이에 대하여 평가하였다. 그 결과, 미세 조정을 하지 않은 base 모델 대비 최대 18%p 향상된 약 93%의 정확도를 보였으며, 등급 판정을 완료한 비율 또한 증가하였다. 본 연구는 소형 언어 모델 기반 부작용 등급 평가 자동화 및 챗봇 운영의 실현 가능성을 제시한다. 주제어: 소형 언어 모델, 미세 조정, 부작용 등급 판정, 의료 대화 데이터, 데이터 증강

초록/요약

Monitoring adverse events during cancer treatment is essential, and research on automating adverse event evaluation has been actively pursued to reduce the burden on healthcare professionals. This study explores methods to improve the performance of small language models for adverse event grade prediction. A 7B-parameter language model was fine-tuned using both real dialogue data and synthetic dialogue data, and its performance was evaluated accordingly. As a result, the fine-tuned model achieved approximately 93% accuracy which is an improvement of up to 18 percentage points compared with the base model without fine-tuning and also demonstrated an increased rate of completed grade predictions. This study highlights the feasibility of automating adverse event grading and implementing clinical chatbots using small language models. Keywords: Small Language Model, Fine-Tuning, Adverse Event Grading, Clinical Dialogue Data, Data Augmentation

제1장 서론 1
제2장 관련 연구 3
제1절 CTCAE 평가 자동화를 위한 자연어처리 기반 접근 3
제2절 대화형 데이터 증강 5
제3장 실험 설계 7
제1절 연구 목적 및 실험 목적 7
제2절 소형 언어 모델 8
제3절 프롬프트 9
제4절 데이터 12
1. 부작용 증상 정보 12
2. 실제 데이터 13
3. 생성 데이터 15
4. 데이터 재구성 17
제5절 실험 구성 19
1. 실험1 (생성 데이터 추가에 따른 성능 변화 관찰) 19
2. 실험2 (실제 데이터 추가에 따른 성능 변화 관찰) 21
제6절 그 외 실험 환경 22
제7절 평가 지표 22
제4장 실험 결과 24
제1절 실험1 결과 24
1. 등급 판정 정확도 및 가중 f1 점수 24
2. 등급별 판정 정확도와 혼동행렬 26
3. 추가 질문 수에 따른 등급 판정 완료도와 정확도 28
제2절 실험2 결과 31
1. 등급 판정 정확도 및 가중 f1 점수 31
2. 등급별 판정 정확도와 혼동행렬 33
3. 추가 질문 수에 따른 등급 판정 완료도와 정확도 35
제5장 결론 및 한계 38
참고문헌 40
Abstract 43

반출 Meta View 목록

아주대학교

검색 상세

항암 부작용 등급 추론을 위한 소형 언어 모델 성능 개선 연구

초록/요약

초록/요약

목차