기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
차세대 시퀀싱 데이터에서 클라우드 스케일의 단위 반복 변이 추출 기법
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 차세대 시퀀싱 데이터에서 클라우드 스케일의 단위 반복 변이 추출 기법
저자명
홍상균,윤지희,Hong. Sang-Kyoon,Yoon. Jee-Hee
간행물명
정보과학회논문지. Journal of KIISE. 데이타베이스
권/호정보
2012년|39권 1호|pp.17-29 (13 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

최근 차세대 시퀀싱 기술의 발달에 따라 인간 유전체 시퀀싱을 위한 비용이 현저히 낮아지고 있으며, 이에 따라 전 세계적으로 생성되는 대규모 차세대 시퀀싱 데이터가 매우 빠른 속도로 축적되고 있다. 그러나 이와 같은 대규모 유전체 데이터를 실시간에 효율적으로 처리, 분석할 수 있는 소프트웨어 개발에 관한 연구는 아직 매우 미흡한 상황이다. 본 연구에서는 클라우드 컴퓨팅 기반의 단위 반복 변이(Copy Number Variation, CNV) 추출 알고리즘, CloudCNV를 제안한다. 제안하는 알고리즘은 차세대 시퀀싱 데이터를 표준 서열(reference sequence)에 매핑(mapping)하여 얻어지는 커버리지(coverage) 데이터의 모양 변화를 기반으로 단위 반복 변이 영역을 추출한다. CloudCNV에서는 대표적인 클라우드 컴퓨팅 플랫폼인 하둡(Hadoop)과 맵리듀스(MapReduce) 기법을 이용하고, 클라우드 컴퓨팅 환경에서 데이터의 분산 처리 및 노드간의 로드 밸런싱을 위해 데이터의 확장 파티셔닝 기법을 사용한다. 성능 평가를 위하여 "1000 게놈 프로젝트"에서 제공하는 공용의 시퀀싱 데이터를 이용한 로컬 및 상용 클라우드 컴퓨팅 환경에서의 실험을 수행하였으며, 그 결과 제안하는 알고리즘이 클라우드 환경에서 대규모 데이터로부터 다양한 크기와 모양의 단위 반복 변이 영역을 효율적으로 추출하고 있음을 보인다.

기타언어초록

Recently, the cost of whole-genome sequencing has decreased dramatically due to the development of next generation sequencing (NGS) technology, and a huge amount of sequencing data has been generated and released by research laboratories worldwide. However, it is difficult to develop mature genome analysis software and high-performance computing resources which are available to assay genome data in real time. This paper proposes a cloud computing algorithm that detects CNVs (Copy Number Variations) from next generation sequencing data. The proposed method, which we call CloudCNV was developed using a shape based CNV detection algorithm, which is based on variations in the shape of read coverage data obtained by aligning NGS data onto a reference sequence. CloudCNV uses the open-source Hadoop implementation of MapReduce, and uses an extended partitioning method to maintain load balancing of each node in the cloud computing environment. To verify the superiority of our approach, we performed extensive experiments using publicly available sequencing data. The result of experiments revealed that our CloudCNV method efficiently finds the CNV regions that have various shapes and arbitrary length from enormous NGS data.