- 장식 테이블과 의미 있는 테이블 식별을 위한 커널 기반의 구조 자질
- ㆍ 저자명
- 손정우,고준호,박성배,김권양,Son. Jeong-Woo,Go. Jun-Ho,Park. Seong-Bae,Kim. Kweon-Yang
- ㆍ 간행물명
- 한국지능시스템학회 논문지
- ㆍ 권/호정보
- 2011년|21권 5호|pp.618-623 (6 pages)
- ㆍ 발행정보
- 한국지능시스템학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 논문에서는 구조 정보를 활용하기 위한 결합 커널 기반의 의미 있는 웹 테이블과 장식 웹 테이블을 구분하는 새로운 방법을 제안한다. 본 논문에서 테이블의 구조 정보는 두 가지 형태의 구문 분석 트리로부터 추출된다. 컨텍스트 트리는 테이블 주변에 나타난 구조를 반영하고 있으며, 테이블 트리는 테이블 내의 구조를 담고 있다. 두 트리로 표현되는 테이블의 구조 정보를 효과적으로 다루기 위해 파스 트리 커널 기반의 결합 커널을 제안한다. 제안한 결합 커널을 적용한 support vector machines은 풍부한 구조 정보를 활용하여 의미 있는 테이블과 장식 테이블을 분류한다.
This paper proposes a novel method to discriminate meaningful tables from decorative one using a composite kernel for handling structural information of tables. In this paper, structural information of a table is extracted with two types of parse trees: context tree and table tree. A context tree contains structural information around a table, while a table tree presents structural information within a table. A composite kernel is proposed to efficiently handle these two types of trees based on a parse tree kernel. The support vector machines with the proposed kernel dised kuish meaningful tables from the decorative ones with rich structural information.