다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘

다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘

ㆍ 저자명: 김은상,김진욱,박근수,Kim. Eun-Sang,Kim. Jin-Wook,Park. Kun-Soo
ㆍ 간행물명: 정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터
ㆍ 권/호정보: 2010년|16권 10호|pp.1015-1019 (5 pages)
ㆍ 발행정보: 한국정보과학회
ㆍ 파일정보: 정기간행물|
PDF텍스트
ㆍ 주제분야: 기타

이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.

서지반출

기타언어초록

문자열 완전일치 검색 알고리즘용 지금까지 많은 연구가 되어왔지만, EUC-KR 용 다중바이트 문자집합에 대해서는 연구원 것이 부족한 상황이다. 이 논문에서는 기존의 KMP 알고리즘을 사용할 때 EUC-KR과 같은 다중바이트 문자집합 텍스트에서 오검색이 발생할 수 있음을 보이며, 문자 단위의 접두사 함수를 적용하여 오검색이 발생하지 않도록 개선한 KMP 알고리즘을 제안한다. 또한, 널리 사용되고 있는 편집기인 Vim과 Emacs의 검색 알고리즘 및 기존의 오토마타 방식의 연구 결과에 비해 논문에서 제안한 알고리즘이 더 빠른 속도를 보이는 실험 결과를 제시한다.

기타언어초록

An extensive research on exact string matching has been done, but there have been few researches on the matching in multi-byte character set texts such as EUC~KR. This paper shows that false matches may occur in multi-byte character set texts such as EUC-KR when using KMP algorithm, and presents a refined KMP algorithm without false matches applying a character-based prefix function. And also, Experimental results show that our algorithm is faster than string matching algorithms of widely used editors, Vim and Emacs, and the existing automata-based algorithm.

키워드

문자열 완전일치 검색 다중바이트 문자집합 오검색 Exact string matching EUC-KR Multi-byte character set False match KMP

다운URL