기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
중첩된 버킷을 사용하는 다차원 히스토그램에 대한 개선된 알고리즘
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 중첩된 버킷을 사용하는 다차원 히스토그램에 대한 개선된 알고리즘
저자명
문진영,심규석
간행물명
정보과학회논문지. Journal of KIISE. 데이타베이스
권/호정보
2003년|30권 3호|pp.336-349 (14 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

히스토그램은 최근들어 많은 관심을 끌고 있다. 히스토그램은 주로 상용 데이타베이스 관리 시스템에서 질의 최적화를 위해 속성의 값에 대한 데이타 분포를 추정하는데 사용되었다. 최근에는 근사 질의와 스트림 데이타에 대한 연구 분야에서 히스토그램에 대한 관심이 커지고 있다. 관계형 데이타베이스에서 두 개 이상의 속성에 대한 결합 데이타 분포를 근사시키는 가장 간단한 방법은 각 속성의 데이타 분포가 결합 데이타 분포에 독립적이라고 가정하는 속성 값 독립(Attribute Value Independence: AVI) 가정하 에서 각각의 속성에 대해서 히스토그램을 만드는 것이다 그러나 실제 데이타에서 이 가정은 잘 맞지 않는다. 따라서 이 문제를 해결하기 위해서 웨이블릿, 랜덤 샘플링, 다차원 히스토그램과 같은 기법들이 제안되 었다. 그 중에서 GENHIST는 실수형 속성에 대한 데이타 분포를 근사시키기 위해 고안된 다차원의 히스토그램이다. GENHIST는 데이타 분포를 좀 더 효과적으로 근사시키기 위해서 중첩되는 버킷을 사용한다. 본 논문에서는 SSE(Sum Squared Error)를 최소화시키는 중첩되는 버킷들의 최적 빈도를 결정하는 OPT 알고리즘을 제안한다. 처음에 GENHIST에 의해 중첩되는 버킷으로 구성되는 히스토그램을 만든 후에 OPT 알고리즘에 의해서 각 버킷의 빈도를 다시 계산해서 GENHIST를 개선시킬 수 있다. 실험 결과는 OPT 알고리즘이 GENHIST에 의해 만들어진 히스토그램의 정확도를 크게 개선시킴을 보여준다.

기타언어초록

Histograms have been getting a lot of attention recently. Histograms are commonly utilized in commercial database systems to capture attribute value distributions for query optimization Recently, in the advent of researches on approximate query answering and stream data, the interests in histograms are widely being spread. The simplest approach assumes that the attributes in relational tables are independent by AVI(Attribute Value Independence) assumption. However, this assumption is not generally valid for real-life datasets. To alleviate the problem of approximation on multi-dimensional data with multiple one-dimensional histograms, several techniques such as wavelet, random sampling and multi-dimensional histograms are proposed. Among them, GENHIST is a multi-dimensional histogram that is designed to approximate the data distribution with real attributes. It uses overlapping buckets that allow more efficient approximation on the data distribution. In this paper, we propose a scheme, OPT that can determine the optimal frequencies of overlapped buckets that minimize the SSE(Sum Squared Error). A histogram with overlapping buckets is first generated by GENHIST and OPT can improve the histogram by calculating the optimal frequency for each bucket. Our experimental result confirms that our technique can improve the accuracy of histograms generated by GENHIST significantly.