- Random forest를 이용한 단백질에서의 DNA 결합 부위 예측
- ㆍ 저자명
- 최혁진,최성욱,한경숙,Choi. Hyuck-Jin,Choi. Sung-Wook,Han. Kyung-Sook
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2012년|39권 7호|pp.515-522 (8 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
단백질과 DNA의 상호작용은 유전자 발현, DNA 복제와 재생 및 재조합, 세포 생성과 같은 생물학적 과정에서 다양한 역할을 담당하기 때문에, 단백질과 DNA가 결합 가능한 부위를 예측하는 것은 단백질과 DNA의 기능을 규명하거나 단백질과 DNA의 결합을 억제하거나 촉진할 수 있는 신약 개발에 유용하게 사용될 수 있다. 본 논문은 단백질 서열에서 DNA와 결합 가능한 부위를 예측하기 위하여 발굴한 특징과 이를 이용한 random forest 모델의 개발을 소개한다. 결합 부위의 예측에 사용한 특징들은, 아미노산과 염기 간의 결합 성향, 아미노산의 생화학적 특징, 단백질 이차 구조, 상대방 DNA 서열의 길이와 염기의 빈도수 등이다. 아미노산과 염기 간의 결합 성향은 Protein Data Bank (PDB)에서 추출한 단백질-DNA 복합체의 구조 분석을 통하여 계산하였다. 383개의 단백질-DNA 복합체에서 추출한 6,160개의 단백질-DNA 서열 쌍을 대상으로 한 시험에서, 이 random forest 모델은 79.8%의 민감도(sensitivity), 94.5%의 특이도(specificity), 92.6%의 정확도(accuracy)의 예측 성능을 보였다.
Protein-DNA interactions play an important role in a number of biological processes, such as gene regulation, DNA replication and repair, recombination and generation of a cell. Prediction of protein-DNA interaction sites will help find the function of proteins and DNA, and facilitate the development of new drugs against diseases caused by protein-DNA interactions. In this paper we present the features of protein and DNA sequences and a random forest model that predicts potential DNA-binding amino acids using the features. The features include the interaction propensity between an amino acid and DNA nucleotide obtained from an extensive analysis of protein-DNA complexes of the Protein Data Bank (PDB), biochemical properties of amino acids, protein secondary structures, DNA sequence length, and nucleotide frequency in the DNA sequence. On a dataset of 6,160 protein-DNA sequence pairs extracted from 383 protein-DNA complexes, the random forest classifier achieved a sensitivity of 79.8%, specificity of 94.5%, and accuracy of 92.6%.