검색 상세

Data integration with enhanced explainability and subtype modeling for multidimensional data

초록/요약

Diverse lines of research have continuously explored the understanding of complex biological systems such as disease, and recent technological developments have produced abundant data of different types. Although advances have been made in various research areas, we have not yet succeeded in fully understanding such a complicated system. The factors that are necessary to understand such systems have not been explained in a single area of research. Thus, the integration of data from various research lines can aid in complementing missing or unreliable information from a single data type or discovering new relationships, thereby resulting in a comprehensive understanding of biological systems. We propose a new method that adopts the characteristics of original multiple kernel learning of linear combinations of input kernels from different data types, and expand it to increase all features into separate kernels. This method is formulated into quadratic programming with l_1,2 mixed norm constraints, which impose the structured penalty on weights for kernel combinations and can achieve structured feature selection. In this manner, integrated data can be confirmed by the selected features and their weights, and thus, explainability is fairly guaranteed. Subsequently, using the integrated data, we perform k-means clustering analysis for subtype identification. The proposed method was applied to two empirical datasets: the Biobank Innovations for Chronic Cerebrovascular Disease with Alzheimer’s Disease Study database to demonstrate the overall analysis process and the Alzheimer’s Disease Neuroimaging Initiative database to compare the clustering results with established subtypes. This approach offers improved explainability compared to current multiple kernel learning and addresses the black-box problem from which machine learning models inherently suffer. Feature selection by taking advantage of the integration of multiple data types is pivotal to building a more straightforward and robust model with explainable data.

more

초록/요약

질병과 같은 복잡한 생물학적 시스템에 대한 이해는 다양한 연구 라인에서 지속적으로 탐구되어 왔으며, 최근의 기술 발전은 다양한 유형의 풍부한 양의 데이터를 생산하였다. 이는 각 연구분야의 발전으로 이어졌지만, 여전히 이렇게 복잡한 시스템을 충분히 이해하는데는 성공하지 못하였는데 그 이유는 그러한 시스템을 이해하는 데 필요한 요소들이 하나의 연구 분야에서는 설명되지 않기 때문이다. 다양한 연구 라인의 데이터를 통합하는 것은 단일 데이터 유형에서 누락되거나 신뢰할 수 없는 정보를 보완하거나 새로운 관계를 발견하고 생물학적 시스템을 포괄적으로 이해하는 데 도움이 된다. 우리는 입력 커널의 선형 조합을 이루는 다중 커널 학습의 특성을 채택하여, 서로 다른 데이터 유형에서 모든 변수를 별도로 커널화 하고 이를 통해 기존의 다중커널 학습을 확장하는 새로운 방법을 제안했다. 이는 커널 조합을 위한 가중치에 l_1,2 정규화 조건을 부여하고 그래프 임베딩 방법을 이용해 구조화된 페널티가 부여된 목적함수를 만든 다음 이를 2차 계획법 (Quadratic programming)을 이용하여 최적화하였다. 이러한 방식으로, 통합 데이터는 선택된 변수와 통합된 데이터의 구조적 특성이 반영된 가중치에 의해 확인될 수 있으므로 설명 가능성이 보장된다. 데이터를 통합한 이후 통합 데이터를 사용하여 하위 유형 식별을 위한 K-평균 군집화 알고리즘 (K-means clustering)을 이용해 분석을 수행하였다. 본 논문에서 제안된 방법은 두 가지 경험적 데이터 세트에 적용하였다. 알츠하이머 연구를 위한 뇌혈관 질환 바이오뱅크 데이터베이스를 이용하여 전체 분석 프로세스 및 결과의 설명가능성을 보여주었으며, 알츠하이머병 신경 이미징 이니셔티브 데이터베이스를 이용해 클러스터링 결과를 확립된 하위 유형과 비교히였다. 제안하는 데이터 통합 방식은 현재의 다중 커널 학습이 충분하게 제공하지 못하는 향상된 설명력을 제공하고 기존의 데이터통합 방식이 가지고 있는 블랙박스 문제를 해결하였다. 또한 데이터의 구조를 반영하여 여러 데이터 유형을 통합하고 상대적으로 가장 의미있는 변수를 선택하는 것은 설명 가능한 데이터를 이용하여 보다 간단하고 강력한 모델을 구축하는 데 있어 중추적인 역할을 할것으로 기대한다.

more

목차

I. Introduction 1
A. Motivations 1
1. Data integration 1
2. Interpretability and explainability 4
3. Nature of biomedical data 6
B. Purpose of study 9
II. Methods 10
A. Related work 10
B. Approach 13
1. Multiple kernel learning 13
2. Proposed approach 15
3. Structured regularization 17
C. Optimization 21
1. K-nearest graph embedding 21
2. Quadratic programming 23
D. Clustering 25
1. K-means clustering 25
2. Clustering validation 26
E. Overall process 29
F. Case study 1 30
1. Database 30
2. Feature extraction 31
G. Case study 2 37
1. Database 37
2. Feature extraction 38
III. Results 42
A. Case study 1: BICWALZS 42
1. Subjects and included features 42
2. Multiple kernel learning 45
3. Integration results 46
4. Clustering results 56
B. Case study 2: ADNI 65
1. Subjects and included features 65
2. Integration results 68
3. Clustering results 75
IV. Discussion 83
V. Conclusions 90
References 91

more