검색 상세

CGV : Cancer Genome View, 암 유전체 데이터 분석 및 시각화를 위한 Shiny / R 응용 프로그램

CGV : Cancer Genome View, a Shiny/R application for cancer genome data analysis and visualization

초록/요약

차세대 염기서열 (NGS, Next-Generation Sequencing) 기술의 발전으로 인간의 유전체 서열정보를 읽는 것이 가능해지면서, 여러 암 종에서 유전체 및 전사체 프로파일 분석을 통해 암을 이해하고 치료 타겟 발굴을 위한 연구들이 이루어져왔다. 실제 암 유전체내에서 단일 유전자보다 생물학적 과정 또는 신호전달 경로 등의 유전자 집합 단위의 변이들이 암 진행에 중요함이 밝혀지면서, 유전자 집합 수준 분석의 중요성이 높아졌다. TCGA (The Cancer Genome Atlas)는 이러한 암 유전체 연구를 위해 33개의 암 종으로부터 대규모 다중 오믹스 데이터를 생산해 공개하였다. 그러나, 원 데이터에 대한 접근장벽 및 전산기술 부족으로 이를 활용한 양질의 분석연구에 한계가 있으며, 이러한 문제를 해결하기 위해 cBioPortal과 같은 유전체데이터 분석 플랫폼들이 개발되어 왔다. 하지만, 기 구축된 플랫폼들은 대부분 단일 유전자 수준의 분석만을 지원하고 있어, 유전자 집합 수준의 분석을 통해 분자적 수준의 암 유전체를 이해하는 데에는 한계가 있다. 또한, 암 유전체는 환자의 병인 및 인종 등과 같은 임상적 요인들과 함께 이질성을 나타내고 있어, 여러 요인들을 고려한 분석이 진행되어야 하지만 이를 위한 플랫폼 구축이 미미한 상황이다. 이에, 본 연구자는 본 연구를 통해 유전자 집합 수준의 유전체데이터 분석을 위한, 웹 기반의 분석 플랫폼 CGV(Cancer Genome View)를 개발하였다. CGV는 R shiny 기반으로 구현되었으며, TCGA 데이터 및 in house 간암 유전체데이터를 분석데이터로 제공한다. CGV는 암 환자의 임상 및 병리적 특징뿐만 아닌 암종별 특이적 아형 및 특성을 고려하여 표본샘플 선택 가능한 인터페이스를 구현하였다. 또한, 유전자 집합 분석을 위해 현재까지 발굴되어온 유전자 집합 시그니쳐 및 사용자가 유전자를 입력하여 생성된 유전자 집합에 대한 분석을 지원하며, 유전자 집합 기반의 농축 점수 산출 및 프로파일 패턴 분석과 이를 기반한 생존 분석 및 시각화 등의 기능모듈을 지원한다. CGV는 웹 기반 사용자 편의적인 인터페이스를 제공하며, 컴퓨터를 전공하지 않은 비전문가들에게 유전체 집단 기반의 유전체분석 플랫폼으로 널리 활용될 것으로 기대된다. 본 분석 플랫폼은 www.sysgene.org/CGV에서 이용 가능하다.

more

목차

제 1장 서론 1
제 2장 구축 5
2-1. Infrastructure 5
2-2. 다중 오믹스 데이터 구조화 및 데이터베이스 구축 6
2-3. 유전자 집합 데이터베이스 구축 9
2-4. 분석 및 시각화 기능 구축 12
제 3장 결과 13
3-1. CGV 분석 플랫폼 13
3-2. CGV 분석 단계 15
3-2-1. 데이터 불러오기 (Data Load) 15
3-2-2. 샘플 선택 (Sample Selection) 17
3-2-3. 특징 선택 (Feature Selection) 25
3-2-4. 분석 및 시각화 27
(1) 유전자 집합 농축 분석 (Gene set enrichment analysis) 27
(2) 생존 분석 (Survival analysis) 27
(3) 서열변이 분석 27
3-3. 사례 연구 29
3-3-1. 병리학적 단계로 나눈 LIHC 샘플의 생존 분석 29
3-3-2. 병합된 데이터에서의 유전자 세트 농축 점수 분석 38
3-3-3. BRCA 샘플을 이용한 서열변이 분석 41
제 4장 고찰 49
제 5장 결론 51
참고문헌 52
영문 요약 60

more