- 고 밀도 영역을 이용한 향상된 2차원 히스토그램 기법
- ㆍ 저자명
- 노요한,정연돈,김호진,김명호,Roh. Yo-Han,Chung. Yon-Dohn,Ghim. Ho-Jin,Kim. Myoung-Ho
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2008년|35권 6호|pp.544-554 (11 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
히스토그램은 데이타베이스 시스템에서 질의 결과 크기를 추정하는 데 널리 이용되고 있다. 히스토그램 기법에서 질의 결과 크기에 대한 추정은 각 버킷 영역 내의 객체들이 균등하게 분포한다는 가정하에 이루어진다. 그러나, 주어진 질의 영역 내의 객체들은 균등하게 분포하지 않을 수 있다. 다시 말해서, 버킷 영역 내에 높은 밀도의 객체 군집 즉 클러스터가 존재할 수 있으며 이로 인하여 히스토그램의 정확도가 현저히 저하될 수 있다. 본 연구의 목적은 히스토그램의 정확도를 향상시키는 데 있다. 이를 위하여 본 연구는 클러스터를 고려한 새로운 히스토그램 기법을 제안한다. 제안하는 기법은 주어진 데이타 분포내에 존재하는 고 밀도 영역을 탐색하고 이를 히스토그램 생성에 활용한다. 제안하는 기법은 클러스터에 의한 정확도 저하를 효과적으로 감소시킴으로써 데이타가 균등하게 분포하지 않은 상황에서 향상된 성능을 제공할 수 있다. 실험을 통해 본 연구는 제안하는 기법이 기존 기법의 성능을 최대 74% 향상시킴을 확인하였다.
Histograms are popularly used for selectivity estimation in database systems. In conventional histogram methods, buckets return the approximated results based on the assumption that all objects in a bucket are uniformly distributed. However, the objects within the region of a query are not likely to be uniformly distributed. That is, there can be some skews (i.e., clusters) in the buckets, which may significantly degrade the accuracy of the histogram. The aim of this work is to enhance the accuracy of histograms. For this purpose, we propose a new two-dimensional histogram method considering clusters. The proposed method detects dense regions and exploits them for organizing buckets. Since the proposed method effectively reduces accuracy degradation caused by clusters, it can provide improved, robust accuracy against skewed data distributions. Through experiments, we show that the proposed method provides up to 74% improved performance compared with the conventional histogram.