검색 상세

시계열 센서 데이터 기반 분류 모델을 위한 학습 데이터 셋 품질 평가 방법

Evaluating Quality of Training Dataset for Classification Model Based on Time-series Sensor Data

초록/요약

센서 데이터는 협동 로봇, 반도체, 모바일 등 다양한 산업에서 수집 및 보관되며, 이러한 데이터들은 학습 목적에 따라 사용되고 있다. 이러한 데이터를 이용하는 기계 학습에서는 학습 모델의 성능이 가장 중요한데, 이는 데이터 품질에 직접적인 영향을 받는다. 따라서, 높은 학습 성능을 얻기 위해서는 학습에 적합한 학습 데이터 셋이 필요하다. 이에 따라 데이터의 품질을 평가하기 위한 지표와 연구가 진행되고 있다. 기존의 데이터 품질 평가는 학습을 위한 데이터가 아닌 데이터베이스 적재에 초점을 두어 기계 학습 특성을 반영하지 않는다. 이를 보완하기 위해 연구된 AI 학습용 데이터 품질 평가 연구들도 많은 산업에서 사용되는 센서 데이터의 특성이 반영된 품질 평가가 아니며, 더욱이 품질을 수치화하여 정량적으로 평가하지 않는다. 따라서 본 논문에서는 센서 데이터의 특성을 반영한 분류 모델 학습에 적합한 학습 데이터 셋 평가 방법을 제안한다. 제안하는 방법은 3가지 방법으로 데이터별 대푯값의 실루엣 지수를 이용한 클래스 간 차별성, 클래스의 대표 데이터와 수집된 데이터 간 DTW 차이를 이용한 클래스 내 응집도, 마지막으로 주파수 분해 기반 클래스 간 주파수 대역별 ED를 이용한 노이즈가 특성에 반영되는 정도로 구성되어 있다. 제안하는 연구는 센서 데이터의 특성을 반영하여 분류 모델용 데이터 셋의 품질을 수치화하여 평가할 수 있으며, 품질에 따라 특성 삭제, 노이즈 필터링 등 추가적인 처리를 통해 데이터 셋을 개선할 수 있다. 또한, 데이터의 품질과 학습 성능의 관계를 분석하여 이에 따른 조치를 제안하고 있다.

more

초록/요약

Sensor data is collected and stored in various industries such as cooperative robots, semiconductors, and mobile. And these data are used according to machine learning purposes. In machine learning, the performance of the training model is important, and this performance is directly affected by data quality. Therefore, in order to have high training performance, a training data set suitable for training is required. Due to this situation, indicators and research are being conducted to evaluate the quality of data. Existing data quality evaluations do not reflect machine learning characteristics because they focused on loading databases rather than on data for training. To compensate for this, the data quality evaluation for AI training was also studied. But this does not reflect the characteristics of sensor data used in many industries, and furthermore, quality is quantitatively evaluated. Therefore, this paper proposes a training dataset evaluation method suitable for classification model training that reflects the characteristics of sensor data. There are three proposed methods: first, the differentiation between classes using the silhouette index of representative values for each data, second cohesion within the class using DTW between representative data and each data, third, the degree of featured noise within the class using band-to-band ED based on frequency decomposition. The proposed study can quantify and evaluate the dataset's quality for classification models by reflecting sensor data characteristics. In addition, the dataset can be improved through additional preprocessing such as feature deletion and noise filtering depending on the quality. In addition, the relationship between data quality and learning performance is analyzed, and a processing method is proposed based on this.

more

목차

제1장 서론 1
제2장 관련 연구 5
제1절 데이터베이스 적재를 위한 데이터 품질 평가 5
제2절 학습을 위한 데이터 품질 평가 6
제3절 학습 모델 관점 센서 데이터 특징 9
제3장 센서 데이터 품질 평가 방법 10
제1절 데이터 전처리 10
제2절 클래스 간 차별성 평가 12
제3절 클래스 내 응집도 평가 13
제4절 노이즈가 특성에 반영되는 정도 평가 13
제4장 실험 및 평가 17
제1절 학습 데이터 셋 및 학습 모델 17
제2절 평가 19
제3절 데이터 품질에 따른 학습 모델 성능 검증 24
제4절 데이터 품질에 따른 학습 모델 성능 분석 26
제5장 결론 29
제6장 참고문헌 30

more