- 대용량 자료와 순차적 자료를 위한 부스팅 알고리즘
- ㆍ 저자명
- 윤영주,Yoon. Young-Joo
- ㆍ 간행물명
- 응용통계연구
- ㆍ 권/호정보
- 2010년|23권 1호|pp.197-206 (10 pages)
- ㆍ 발행정보
- 한국통계학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 논문에서는 대용량 자료 혹은 시간에 따라 순차적으로 들어오는 자료의 분류를 위한 부스팅(boosting) 알고리즘을 제안한다. 대용량 자료나 순차적 자료의 경우 분석시 모든 훈련 자료(training data)들을 한번에 이용하기 어려우므로 보통의 부스팅 알고리즘은 적절하지 못하다. 이러한 상황을 극복하기 위해 AdaBoost와 Arc-x4와 같은 부스팅 알고리즘을 수정하여 제안한다. 모의 실험과 실제 자료 분석을 통해 대용량 자료나 순차적 자료에 제안된 알고리즘이 잘 적용됨을 보였다.
In this paper, we propose boosting algorithms when data are very large or coming in batches sequentially over time. In this situation, ordinary boosting algorithm may be inappropriate because it requires the availability of all of the training set at once. To apply to large scale data or data batch stream, we modify the AdaBoost and Arc-x4. These algorithms have good results for both large scale data and data batch stream with or without concept drift on simulated data and real data sets.