검색 상세

특징 유사도 기반 네트워크와 클러스터링 분석을 활용한 특징 선택

Feature Selection Techniques using Feature Similarity based Network and Clustering Approach

초록/요약

특징 선택(Feature Selection)은 관련성이 가장 높은 특징(feature)들의 부분집합(subset)을 선택(selection)하는 작업으로써, 데이터 마이닝 및 기계 학습 분야, 이미지 처리부터 의생명 정보학 분야에 이르기 까지 다양한 응용 분야에서 사용되는 중요한 부분이다. 특징 선택 프로세스는 보통 분류 문제를 해결하기 위한 데이터의 전처리 과정에 사용되며, 데이터의 불필요한 특징을 제거하고 필요한 특징들을 추출하는 작업이다. 이러한 특징 선택을 위한 방법은 필터(Filter) 방식과 래퍼(Wrapper) 방식, 크게 두 가지로 나눌 수 있으며 다양한 알고리즘들이 존재한다. 본 연구의 목적은 다양한 도메인에서 적용될 수 있는 특징 선택 기법을 살펴보는 것이고, 그 중 필터 방식에 초점을 맞추었으며 크게 두 가지 파트로 나누어 서로 다른 도메인에서 어떻게 적용할 수 있는지에 대해 확인해 보았다. 하나는 스마트 환경에서 거주자의 행위 인식을 위한 최소한의 센서의 수를 확인해보는 센서 선정을 위한 특징 선택이고, 다른 하나는 소프트웨어 품질 측정을 위한 메트릭을 확인하여 소프트웨어 오류 예측 모델을 위한 최소한의 메트릭을 선정하는 것으로 연구를 진행해보았다. 특징 선택을 위하여 MIC (Maximal Information Coefficient)와 같이 변수들의 상관관계를 확인하는 기법을 사용하였고, 이를 K-means, 스펙트럴 클러스터링과 네트워크 기반의 분석 방법을 활용하여 특징 선택을 하여 성능 분석을 확인하여 보았다.

more

목차

Chapter 1. 서 론 1
1.1 연구 동기 1
1.2 연구 목적 1
1.3 논문 구성 2
Chapter 2. 연구 배경 3
2.1 관련 연구 3
2.2 특징 선택 3
2.2.1 F-score based feature selection (FFS) 4
2.3 SW 품질 측정 메트릭 선정 기법 5
2.4 스마트 환경 센서 선정 기법 5
Chapter 3. 실험 방법 6
3.1 차원 축소 6
3.2 상관관계 지표 7
3.2.1 MIC(Maximal Information Coefficient) 7
3.2.2 피어슨 상관 계수 8
3.2.2 스피어만 상관 계수 8
3.3 클러스터링 9
3.3.1 K-means 클러스터링 10
3.2.2 계층적 클러스터링 10
3.2.3 스펙트럴 클러스터링 12
3.2.4 EM 알고리즘 13
3.4 서포트 벡터 머신 14
3.5 포아송 회귀 분석 14
Chapter 4. 소프트웨어 메트릭 선정 응용 16
4.1 소프트웨어 메트릭 16
4.1.1 CK 메트릭 16
4.1.2 McCabe & Halstead 메트릭 18
4.2 네트워크 구성 및 특징 선택 기법 24
4.2.1 특징 유사도 기반 네트워크 24
4.2.2 특징 유사도 기반 클러스터링 29
4.3 실험 결과 31
Chapter 5. 스마트 환경 센서 선정 응용 35
5.1 실험 데이터 35
5.2 센서 선정 기법 38
5.2.1 임계값 기반 필터링을 활용한 센서 선정 38
5.2.2 주성분 분석(PCA)을 활용한 센서 선정 39
5.2.3 클러스터링을 활용한 센서 선정 40
5.3 실험 결과 44
Chapter 6. 결 론 46

참 고 문 헌 47
ABSTRACT 51

more