LLM 기반 문서 내 개인정보 마스킹 기법
LLM-Based Personal Information Masking Techniques in Documents
- 주제(키워드) LLM , NLP , OCR , 개인정보 보호 및 마스킹 , QLoRA
- 발행기관 아주대학교 IT융합대학원
- 지도교수 구형일
- 발행년도 2025
- 학위수여년월 2025. 2
- 학위명 석사
- 학과 및 전공 IT융합대학원 IT융합공학과
- 실제URI http://www.dcollection.net/handler/ajou/000000034614
- 본문언어 한국어
- 저작권 아주대학교 논문은 저작권에 의해 보호받습니다.
초록/요약
디지털화의 가속화로 문서 내 개인정보 유출에 대한 우려가 커지고 있으며, 특히 출력물 형태로 유출된 개인정보는 금융 사기와 신분 도용과 같은 심각한 문제를 초래할 수 있다. 이를 해결하기 위해 본 연구에서는 한국어 문서 환경에 최적화된 개인정보 탐지 기법을 제안한다. 제안된 시스템은 이미지 전처리, 문자 검출, 손글씨 분류, 문자 인식, 개인정보 처리, 개인정보 마스킹의 6단계로 구성되며, 한국어 문서의 특성과 정보 형식에 맞춤화된 탐지 및 마스킹 기법을 포함한다. 또한 Qwen2.5-14B 모델을 기반으로 QLoRA(Quantized Low-Rank Adapter) 방식을 활용해 경량화된 파인튜닝을 수행, 다양한 문서 형식에서도 안정적인 성능을 유지하도록 설계하였다. 실험에서는 손글씨 마스킹 기법과 Qwen2.5-14B 기반 프롬프트 엔지니어링 방식을 구현하고, 제안된 방식인 PRISM(Privacy and Risk-sensitive Information Screening Mechanism)과 성능을 비교하였다. 그 결과, 손글씨 마스킹 기법 대비 F1-Score가 40.23% 향상되었고, Qwen2.5-14B 프롬프트 엔지니어링 방식 대비 F1-Score가 6.13% 증가하였다. 특히 높은 Recall 값을 통해 복잡한 문서 환경에서도 개인정보와 민감정보를 포괄적으로 탐지할 가능성을 확인하였다. PRISM은 개인정보뿐만 아니라 문서에서 민감정보를 제거할 수 있는 응용 가능성을 제공하며, 공공기관 및 민간 기업의 정보 보호와 데이터 관리의 신뢰성을 높이는 데 기여할 수 있다. 특히 다양한 문서 형식과 비정형적 탐지 작업에서도 긍정적인 활용 가능성을 보여준다. 본 연구는 민감정보 보호를 위한 대규모 언어 모델(LLM)의 실효성과 응용 가능성을 제시하며, 디지털 환경에서 정보 보호를 위한 기술 발전에 기여하고자 한다. 이를 통해 개인정보 및 민감정보 유출 방지와 관련된 현실적 문제 해결에 도움이 되기를 기대한다.
more초록/요약
With the acceleration of digitalization, concerns about the leakage of personal information in documents are increasing. Personal information leaked in printed formats can lead to severe issues such as financial fraud and identity theft. To address this, we propose a personal information detection method optimized for Korean document environments. The proposed system comprises six stages: image preprocessing, character detection, handwriting classification, character recognition, personal information processing, and personal information masking. It incorporates detection and masking techniques tailored to the characteristics and information formats of Korean documents. Additionally, the system employs a lightweight fine-tuning method based on Qwen2.5-14B using QLoRA (Quantized Low-Rank Adapter) to ensure robust performance across diverse document formats. In experiments, we implemented a handwriting masking technique and a Qwen2.5-14B-based prompt engineering method and compared their performance with the proposed PRISM (Privacy and Risk-sensitive Information Screening Mechanism). Results show that PRISM achieved a 40.23% improvement in F1-Score over the handwriting masking technique and a 6.13% improvement over the Qwen2.5-14B prompt engineering method. Notably, the high recall values demonstrate the system's potential to comprehensively detect personal and sensitive information even in complex document environments. PRISM provides applicability beyond personal information detection by enabling the removal of sensitive information from documents, enhancing the trustworthiness of information protection and data management for public institutions and private enterprises. It also demonstrates positive potential for diverse document formats and unstructured detection tasks. This study highlights the effectiveness and applicability of large language models (LLMs) in protecting sensitive information and contributes to the technological advancement of information protection in the digital era. We expect this research to aid in solving real-world issues related to the prevention of personal and sensitive information leakage.
more목차
제 1 장 서론 1
제 2 장 기반 기술 5
2.1 문자 검출 5
2.1.1 CRAFT: Character Region Awareness for Text Detection 5
2.2 손글씨 분류 7
2.2.1 ResNet-18: Residual Network 18 Layer 7
2.3 문자 인식 9
2.3.1 STR: Scene Text Recognition 9
2.4 개인정보 분류 11
2.4.1 LLM: Large Language Model 11
제 3 장 제안 방법 14
3.1 이미지 전처리 16
3.2 문자 검출 19
3.2.1 문자 영역 검출 19
3.2.2 검출 영역 후처리 22
3.3 손글씨 분류 25
3.4 문자 인식 26
3.4.1 손글씨 인식 27
3.4.2 인식 문자 후처리 29
3.5 개인정보 처리 31
3.5.1 LLM 파인튜닝 33
3.5.2 개인정보 분류 34
3.6 개인정보 마스킹 36
제 4 장 실험 및 평가 38
4.1 실험 환경 38
4.1.1 하드웨어 구성 39
4.1.2 소프트웨어 및 라이브러리 39
4.2 학습 데이터셋과 학습 40
4.2.1 손글씨 분류 41
4.2.2 손글씨 인식 43
4.2.3 LLM 파인튜닝 45
4.3 실험 데이터셋과 실험 48
4.3.1 개인정보 분류 48
4.3.2 평가를 위한 비교 기법 49
4.4 실험 결과 52
4.4.1 측정 기준 52
4.4.2 결과 56
4.5 평가 59
제 5 장 결론 62
Abstract 67