- 실수 지수 메트릭으로 구성된 스트링 커널을 이용한 신호펩티드의 절단위치 예측
- ㆍ 저자명
- 지상문,Chi. Sang-Mun
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2009년|36권 10호|pp.786-792 (7 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
지지벡터기계는 자료간의 유사도를 커널함수를 사용하여 계산하고, 이러한 유사도를 이용하여 패턴을 분류하는 최적인 초평면을 구한다. 따라서 자료의 특성을 효과적으로 반영할 수 있는 유사도의 사용이 중요하다. 본 연구에서는 아미노산 서열간의 최적의 유사도를 얻기 위해서, 아미노산의 진화적인 관계와 소수성으로부터 유도된 메트릭을 실수 지수를 가지는 형태로 일반화하였다. 제안한 메트릭이 메트릭의 조건을 만족하고, 아미노산 서열과 DNA 서열의 유사도를 계산하기 위해서 널리 사용되는 스트링 커널내에서 이용되는 메트릭파의 관련성을 알아본다. 또한, 적용하려는 문제에 보다 효과적인 메트릭을 일반화 메트릭에서 찾을 수 있음을 신호펩티드의 절단위치 예측실험을 통하여 알아본다.
A kernel in support vector machines can be described as a similarity measure between data, and this measure is used to find an optimal hyperplane that classifies patterns. It is therefore important to effectively incorporate the characteristics of data into the similarity measure. To find an optimal similarity between amino acid sequences, we propose a real exponent exponential form of the two metrices, which are derived from the evolutionary relationships of amino acids and the hydrophobicity of amino acids. We prove that the proposed metric satisfies the conditions to be a metric, and we find a relation between the proposed metric and the metrics in the string kernels which are widely used for the processing of amino acid sequences and DNA sequences. In the prediction experiments on the cleavage site of the signal peptide, the optimal metric can be found in the proposed metrics.