검색 상세

URL 통계정보를 이용한 스팸메일 필터링 기법

Spam Filter Using URL Statistics

  • 발행기관 亞州大學校 情報通信傳文大學院
  • 지도교수 최경희
  • 발행년도 2005
  • 학위수여년월 2005. 2
  • 학위명 석사
  • 학과 및 전공 정보통신전문대학원 정보통신공학과
  • 본문언어 한국어

초록/요약

본 논문에서는 6개월 동안 연구실에서 모은 메일에 포함된 URL통계 분석을 바탕으로 스팸메일 필터링하기 위해 메일에 포함된 URL 통계 정보를 이용하는 메일 필터링 기법에 대해서 소개할 것이다. 본 논문에서 사용한 기법은 메일에 포함된 URL의 정보만을 참고하여 메일을 필터링하기 때문에 메일의 모든 내용을 참고하는 다른 스팸메일 필터링 방법보다 처리속도를 향상 시킬 수 있다. 그 뿐만 아니라 본 논문에서 사용한 기법은 사용자의 피드백을 받아 동적으로 업데이트하기 때문에 잘못된 학습 집단 선택으로 인한 문제점도 해결 할 수 있다.

more

초록/요약

This paper presents a unique spam mail filtering technique based on a deep analysis of statistics on URL’s included in various e-mails gathered from a laboratory in a university for about six months. Since the proposed mail filtering technique searches only URL’s in mail, the overhead introduced by searching all mail contents or black list utilized by many other mail filtering algorithms is significantly reduced. In addition, the proposed filtering technique dynamically updates URL list through client feedback, and the bias possibly introduced by selecting bad training mail set can be eliminated as the filtering process is progressed.

more

목차

본문 차례 (List of Text)
제 1 장 서론 = 1
제 2 장 관련 연구 = 2
제 1 절 블랙리스트/화이트리스트를 이용한방법 = 2
제 2 절 메일 본문을 이용한 방법 = 3
제 3 장 메일에 포함된 URL 의 특성 분석 = 6
제 1 절 URL 의 추출 방법 = 6
제 2 절 URL 을 포함하고 있는 메일의 비율 = 9
제 3 절 URL 의 나타내는 객체의 특성 = 10
제 4 장 URL 통계정보를 이용한 스팸필터 제안 = 13
제 5 장 성능 평가 = 18
제 1 절 시뮬레이션 환경 = 18
제 2 절 시뮬레이션 결과 = 19
제 6 장 결론 = 25
참고 문헌 = 26

more

목차

그림 차례 (List of Figure)
그림 1 메일에서 추출한 URL을 저장하기 위한 DB 스키마 = 7
그림 2 메일 분류 알고리즘 = 17
그림 3 피드백 비율의 차이에 따른 결과 = 20
그림 4 시뮬레이션 시간에 따른 SPAM RECALL변화 = 21
그림 5 시뮬레이션 시간에 따른 SPAM PRECISION변화 = 22
그림 6 시뮬레이션 시간에 따른 LEGITIMATE RECALL변화 = 22
그림 7 시뮬레이션 시간에 따른 LEGITIMATE PRECISION변화 = 23
그림 8 P(SPAM)의 값에 따른 성능변화 = 24

more

목차

표 차례 (List of Table)
표 1 메일에서 URL을 추출하기 위해 사용된 정규 표현식 = 7
표 2 URL을 포함하고 있는 메일의 비율 = 9
표 3 URL이 가지는 프로토콜 분포 = 10
표 4 URL을 포함하고 있는 TAG의 분포 = 11
표 5 그림 및 링크 URL을 포함하고 있는 메일의 개수 분포 = 12
표 6 빈도 테이블(FREQUENCY TABLE)의 예제 = 15
표 7 피드백 비율에 따른 결과 = 20

more