- WWW 환경에서 중복문서의 검출 기법에 대한 고찰
- ㆍ 저자명
- 이순행,이상철,김상욱,김학진,Lee. Soon-Haeng,Lee. Sang-Chul,Kim. Sang-Wook,Kim. Hak-Jin
- ㆍ 간행물명
- 데이타베이스 연구
- ㆍ 권/호정보
- 2009년|25권 1호|pp.1-17 (17 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
최근 들어 웹 문서가 증가함에 따라 중복문서 검출의 중요성이 점차 커지고 있다. 본 논문에서는 WWW 환경에서 중복문서를 검출하는 기법에 관련된 기존의 연구 현황에 대하여 소개한다. 먼저, 두 개의 문서가 주어졌을 때 중복인지의 여부를 판정하는 기법들을 소개한다. 두 번째로는 대용량의 문서 데이터베이스에서 중복문서들을 효율적으로 검출하는 기법들에 대해 논한다. 마지막으로 향후 연구 방향에 대하여 제시한다.
Recently, as the number of documents in the WWW(World Wide Web) increases, it becomes crucial to treat duplicate documents. In this article, we survey previous research results related to handling duplicate documents in WWW environment. First, we introduce a variety of methods for determining whether given two documents are duplicated. Second, we address methods for detecting duplicate documents efficiently from a large document database. Finally, we suggest further research directions.