검색 상세

SEQprocess: 차세대 염기서열 데이터 처리를 위한 파이프라인 R 패키지

초록/요약

NGS(Next-Generation Sequencing, 차세대 염기서열) 기술은 현재 의•과학 연구 분야에서 폭넓게 이용되고 있다. NGS 데이터의 처리는 시퀀싱 플랫폼에 따라서 다양한 프로그램과 적절한 데이터 처리 파이프라인을 필요로 하고 있으며 NGS 기술과 데이터 처리 방식의 빠른 발전으로 인해 현존하는 파이프라인은 재빠른 업데이트가 필요하다. 최근 세포 유리 DNA(Cell-free DNA)와 종양 패널 혹은 엑소좀 RNA 시퀀싱과 같은 NGS 기술의 임상 적용 또한 적절한 데이터 처리 파이프라인을 요구하고 있다. 따라서, 나는 이러한 NGS 데이터를 처리할 수 있는 기준이 되는 파이프라인을 제공할 뿐 아니라, 사용자 설정에 따라 유연하게 구동할 수 있으며 기능이나 파이프라인의 추가 및 확장 가능한 R 패키지인 “SEQprocess”를 개발하였다. SEQprocess R 패키지는 NCI Genomic Data Commons(GDC)에서 제공하는 암 유전체 데이터 분석 파이프라인과 돌연변이 호출을 위해 널리 사용되는 Genome Analysis ToolKit(GATK) 프로그램을 이용한 파이프라인 외에 mRNA 발현량 측정, DNA 복제 수 측정, 그리고 cell-free DNA와 exosomal RNA 및 small RNA 데이터를 처리할 수 있는 총 6가지의 최적화된 파이프라인을 제공한다. SEQprocess를 이용해 처리된 데이터는 R 환경에서 편하게 분석할 수 있도록 ‘ExpressionSet’과 ‘SummarizedExperiment’ R 데이터 형태로 최종 출력 결과를 내놓는다. SEQprocess는 또한 NGS 데이터 분석의 재현성을 보장하기 위해 각 데이터 처리 단계를 요약한 리포트를 출력할 수 있는 기능을 제공한다. 즉, SEQprocess R 패키지는 NGS 데이터의 처리를 위한 6개의 파이프라인을 제공하며, R 환경에서 사용자의 설정대로 유연하게 구동할 수 있고, 추가적으로 기능이나 파이프라인을 확장할 수 있는 프레임워크이다.

more

목차

제 1장 배 경 1
제 2장 구 현 3
제 3장 결 과 5
3.1. SEQprocess 파이프라인 5
3.2. SEQprocess 출력 파일 9
3.3. 데이터 분석의 재현성을 위한 SEQprocess 보고서 파일 12
제 4장 결 론 17
참고 문헌 및 영문 요약

more