- 차세대 시퀀싱 데이터에서 클라우드 스케일의 단위 반복 변이 추출 기법
- ㆍ 저자명
- 홍상균,윤지희,Hong. Sang-Kyoon,Yoon. Jee-Hee
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2012년|39권 1호|pp.17-29 (13 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
최근 차세대 시퀀싱 기술의 발달에 따라 인간 유전체 시퀀싱을 위한 비용이 현저히 낮아지고 있으며, 이에 따라 전 세계적으로 생성되는 대규모 차세대 시퀀싱 데이터가 매우 빠른 속도로 축적되고 있다. 그러나 이와 같은 대규모 유전체 데이터를 실시간에 효율적으로 처리, 분석할 수 있는 소프트웨어 개발에 관한 연구는 아직 매우 미흡한 상황이다. 본 연구에서는 클라우드 컴퓨팅 기반의 단위 반복 변이(Copy Number Variation, CNV) 추출 알고리즘, CloudCNV를 제안한다. 제안하는 알고리즘은 차세대 시퀀싱 데이터를 표준 서열(reference sequence)에 매핑(mapping)하여 얻어지는 커버리지(coverage) 데이터의 모양 변화를 기반으로 단위 반복 변이 영역을 추출한다. CloudCNV에서는 대표적인 클라우드 컴퓨팅 플랫폼인 하둡(Hadoop)과 맵리듀스(MapReduce) 기법을 이용하고, 클라우드 컴퓨팅 환경에서 데이터의 분산 처리 및 노드간의 로드 밸런싱을 위해 데이터의 확장 파티셔닝 기법을 사용한다. 성능 평가를 위하여 "1000 게놈 프로젝트"에서 제공하는 공용의 시퀀싱 데이터를 이용한 로컬 및 상용 클라우드 컴퓨팅 환경에서의 실험을 수행하였으며, 그 결과 제안하는 알고리즘이 클라우드 환경에서 대규모 데이터로부터 다양한 크기와 모양의 단위 반복 변이 영역을 효율적으로 추출하고 있음을 보인다.
Recently, the cost of whole-genome sequencing has decreased dramatically due to the development of next generation sequencing (NGS) technology, and a huge amount of sequencing data has been generated and released by research laboratories worldwide. However, it is difficult to develop mature genome analysis software and high-performance computing resources which are available to assay genome data in real time. This paper proposes a cloud computing algorithm that detects CNVs (Copy Number Variations) from next generation sequencing data. The proposed method, which we call CloudCNV was developed using a shape based CNV detection algorithm, which is based on variations in the shape of read coverage data obtained by aligning NGS data onto a reference sequence. CloudCNV uses the open-source Hadoop implementation of MapReduce, and uses an extended partitioning method to maintain load balancing of each node in the cloud computing environment. To verify the superiority of our approach, we performed extensive experiments using publicly available sequencing data. The result of experiments revealed that our CloudCNV method efficiently finds the CNV regions that have various shapes and arbitrary length from enormous NGS data.