- 메타 검색엔진을 위한 HTML 문서 변경 탐지기의 설계 및 구현
- ㆍ 저자명
- 박상위,오정석,이상호,Park. Sang-Wi,O. Jeong-Seok,Lee. Sang-Ho
- ㆍ 간행물명
- 정보처리학회논문지. The KIPS transactions. Part D. Part D
- ㆍ 권/호정보
- 2002년|3호|pp.345-354 (10 pages)
- ㆍ 발행정보
- 한국정보처리학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
검색엔진의 HTML문서는 수시로 변경되고 있으며, 이는 각 검색엔진의 결과 문서를 통합하여 사용자에게 제공하는 메타 검색엔진의 기능을 저하시키는 요인이 된다. 이에 대한 해결방법으로 본 논문에서는 HTML 문서의 변경을 탐지하는 HTML문서 변경 탐지기를 설계하고 구현한다. 문서 변경 탐지기는 문서 구조를 추출하기 위해 위치 정보 알고리즘과 수정된 Jaak Vilo 알고리즘을 사용하고, 그 결과로 패턴을 추출한다. 문서 변경 탐지기는 HTML문서에서 반복적으로 출현하는 구조를 표현하는 패턴을 사용한다. 또한, 문서 변경 탐지기의 정확성을 측정하기 위하여 문서 변경에 대한 전략을 세우고 이를 기반으로 실험을 수행한다.
HTML pages in the web change at any time. It could cause to decrease the functionality of meta-search engines which provide users with integrated results of search engines. To solve this problem, we propose an HTML pages modification detector. It utilities information of element positions in HTML pages and the modified Jaak Vilo algorithm. The HTML page modification detector uses patterns that represent the structure of HTML expressions occurring repeatedly in HTML pages. An experiment is carried out to verify the correctness of the modification detector.