- 단백질의 세포내 위치를 예측하기 위한 외부정보의 성능 비교
- ㆍ 저자명
- 지상문,Chi. Sang-Mun
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2010년|37권 11호|pp.803-811 (9 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
단백질의 세포내 위치와 단백질의 기능은 연관성이 크므로, 단백질의 세포내 위치 예측을 통해서 그 기능에 대한 정보를 얻을 수 있다. 예측 정확도를 높이기 위해서 아미노산 서열 정보이외의 외부 정보들을 효과적으로 이용하려는 연구가 활발하다. 본 논문에서는 아미노산 서열 유사성, 단백질 프로파일, 유전자 온톨로지, 모티프, 문헌 정보에 내재된 세포내 위치 예측 능력을 비교한다. 단백질간의 서열 유사성이 80% 이하인 PLOC 자료를 사용한 실험에서는 서열 유사성과 유전자 온톨로지를 이용하는 방법이 효과적이며, 94.8%의 예측정확도를 얻었다. 단백질 서열간의 유사성이 30% 이하로서 단백질간의 서열 유사성이 작은 BaCelLo IDS 자료는 유전자 온톨로지를 사용하는 것이 효과적이었고, 동물은 93.2%, 곰팡이는 86.6%의 예측정확도로 크게 향상된 성능을 얻었다.
Since protein subcellular location and biological function are highly correlated, the prediction of protein subcellular localization can provide information about the function of a protein. In order to enhance the prediction performance, external information other than amino acids sequence information is actively exploited in many researches. This paper compares the prediction capabilities resided in amino acid sequence similarity, protein profile, gene ontology, motif, and textual information. In the experiments using PLOC dataset which has proteins less than 80% sequence similarity, sequence similarity information and gene ontology are effective information, achieving a classification accuracy of 94.8%. In the experiments using BaCelLo IDS dataset with low sequence similarity less than 30%, using gene ontology gives the best prediction accuracies, 93.2% for animals and 86.6% for fungi.