- 문자열의 근사커버 찾기
- ㆍ 저자명
- 심정섭,박근수,김성렬,이지수,Sim. Jeong-Seop,Park. Kun-Soo,Kim. Sung-Ryul,Lee. Jee-Soo
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 시스템 및 이론
- ㆍ 권/호정보
- 2002년|29권 1호|pp.16-21 (6 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
반복적인 문자열에 대한 연구는 최근 들어 여러 분야에서 활발히 진행되어 왔다. 특히, DNA 염기서열의 분석 등 분자생물학에서 그 필용성이 대두되어 있다. 주기 커버, 시드 시퀘어 등이 반복적인 문자열의 대표적인 예들이다. 근사문자열 매칭 분야에서도 근사주기, 근사스퀘어 등 반복적인 문자열에 관 한 연구가 진행되고 있다. 본 논문에서는 근사커버의 개념을 제시한다. 길이가 각각 m, n 인 두 문자열 P. T가 주어졌을 때, P가 T의 근사커버가 되는 최소의 편집거리를 O(mn) 시간, 최소의 가중편집거리를 $O(mn^2)$시간에 찾는 알 고리즘을 제시한다. 또한 문자열 T만 주어졌을 때. T의 최소 근사커버 거리를 갖는 문자열 P를 찾는 문제가 NP-완전 결과임을 증명한다.
Repetitive strings have been studied in such diverse fields as molecular biology data compression etc. Some important regularities that have been studied are perods, covers seeds and squares. A natural extension of the repetition problems is to allow errors. Among the four notions above aproximate squares and approximate periodes have been studied. In this paper, we introduce the notion of approximate covers which is an approximate version of covers. Given two strings P(|P|=m) and T(|T|=n) we propose and algorithm with finds the minimum distance t such that P is a t-approximate cover of T. The algorithm take O(m,n) time for the edit distance and $O(mn^2)$ time of finding a string which is an approximate cover of T is minimum distance is NP-complete.