- 대용량 화학 데이터 베이스를 선별하기위한 결합다중회귀나무 예측치
- ㆍ 저자명
- 임용빈,이소영,정종희
- ㆍ 간행물명
- 응용통계연구
- ㆍ 권/호정보
- 2001년|14권 1호|pp.91-101 (11 pages)
- ㆍ 발행정보
- 한국통계학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
다중나무예측치들이 한 개의 나무 예측치 보다 검증용 자료 오분류률을 줄이는데 있어서 더 정확하다 라는 것은 잘 알려져 있는 사실이다. 다중나무를 생성하는 두 가지 방법이 있다. 하나는 원래의 훈련용 자료를 재 추출하여 수정된 훈련용자료들을 만든 다음에 각각의 수정된 훈련용 자료에 근거하여 나무를 만드는 것이다. arcing 알고리즘이 효율적이라고 알려져있다. 다른 방법은 각각의 마디에서 최적 분리의 후보들 중에서 랜덤하게 하나를 선택하여 나무를 생성하는데에, 이 과정을 반복하면 원래의 훈련용 자료에 대해서 비교적 좋은 나무들을 생성하리라 기대되다. 우리는 arcing의 각 단계에서 후자의 다중회귀나무예측치들을 사용하는 결합다중회귀나무예측치를 제안하고, 효능 있는 화합물들을 찾기 위한 고속의 대량 선별 자료 분석의 예를 통해서 예측방법들의 효율성을 비교한다.
It has been shown that the multiple trees predictors are more accurate in reducing test set error than a single tree predictor. There are two ways of generating multiple trees. One is to generate modified training sets by resampling the original training set, and then construct trees. It is known that arcing algorithm is efficient. The other is to perturb randomly the working split at each node from a list of best splits, which is expected to generate reasonably good trees for the original training set. We propose a new combined multiple regression trees predictor which uses the latter multiple regression tree predictor as a predictor based on a modified training set at each stage of arcing. The efficiency of those prediction methods are compared by applying to high throughput screening of chemical compounds for biological effects.