- 트랜잭션 데이터베이스에서의 정규 패턴 마이닝
- ㆍ 저자명
- 세드 탄비,정병수,Shed. Khairuzzaman Tanbeer,Jeong. Byeong-Soo
- ㆍ 간행물명
- 데이타베이스 연구
- ㆍ 권/호정보
- 2009년|25권 2호|pp.17-29 (13 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
데이터베이스에서 빈번하게 나타나는 패턴들이 항상 유용한 패턴이 아닐 수 있으며, 응용 환경에 따라 유용한 패턴을 의미하는 측정 기준이 달라질 수 있다. 출현 빈도 수뿐만 아니라 일정한 출현 주기를 갖는 패턴들도 응용 환경에 따라 유용하게 쓰여질 수 있다. 본 논문에서는 주어진 시간 구간마다 출현하는 패턴을 정규 패턴(Regular Pattern)이라 정의하고 트랜잭션 데이터베이스에서 정기적으로 출현하는 정규 패턴을 효율적으로 탐색하는 기법을 제안한다. 제안하는 기법에서는 RP(Regular Pattern)-트리 구조를 이용하여 정해진 정규 임계 값을 만족하는 모든 정규 패턴들을 패턴 확장(Pattern-Growth) 방식으로 찾아낸다. 또한 다양한 실험을 통하여 제안한 기법의 효율성과 확장성을 입증한다.
The frequency of a pattern may not be a sufficient indicator for finding meaning patterns from a database. Temporal regularity of pattern appearance can be regarded as another important criterion for measuring the interestingness in several applications. A pattern can be said regular if it appears at a regular interval given by the user in the database. Even though there have been some efforts to discover periodic patterns in time-series and sequential data, none of the existing works is appropriate for discovering the patterns that occur regularly in a transactional database. Therefore, in this paper, we introduce a novel concept of mining regular patterns from transactional databases. We also devise an efficient tree-based data structure, called Regular Pattern tree (RP-tree in short), that captures the database contents in a highly compact manner and enables a pattern growth-based mining technique to generate the complete set of regular patterns in a database for a user-given regularity threshold. Our performance study shows that mining regular patterns with RP-tree is time and memory efficient and it is also highly scalable.