- 다중 레이블 데이터 분류를 위한 상호 정보 척도를 이용한 특정 선별 기법
- ㆍ 저자명
- 임현기,김대원,Lim. Hyunki,Kim. Dae-Won
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2012년|39권 10호|pp.806-811 (6 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
최근 많은 응용에서 다중 레이블 데이터가 발생하고 있다. 하지만 이 데이터는 기존 기계 학습, 데이터 마이닝 분야의 방법 적용이 어렵다. 그 이유는 크게 두 가지로 기존 방법들이 단일 레이블 데이터에 초점을 맞추고 있다는 것과 다중 레이블 데이터의 특성을 반영하지 못하고 있다는 것이다. 대부분의 특정 선별 기법은 단일 레이블 데이터에 초점을 맞추고 있기 때문에 다중 레이블 데이터에는 기존 특징 선별 기법들을 적용할 수 없다. 다중 레이블 데이터에 특정 선형 기법을 적용하기 위해서 다중 레이블 데이터를 단일 레이블 데이터로 전환하는 방법들이 사용된다. 하지만 레이블 변환은 데이터 고유의 특성을 반영하지 못하고 정보 손실을 가져올 수 있다. 본 논문은 레이블과 레이블 사이의 연관성을 고려하여 다중 레이블 데이터에 바로 적용할 수 있는 특정 선별 기업을 제안한다. 제안하는 방법의 우수성을 보이기 위해 클래스 분류 실험을 하였다. 이를 통해 기존 특징 선별 기법들에 비해서 제안하는 기업의 성능이 우수하다는 것을 보였다.
Lately multi-label data set occurs in many applications. However it is difficult to apply in machine learning and data mining fields. There are two reasons: One is that most of researches are focusing on the single-label problem and the other is that the previous methods do not account the characteristics of multi-label. Existing methods cannot be applied to multi-label data because most of feature selection methods have focused in single-label data. For applying existing method, there have been used label transformation methods. However label transformation may lead to information loss of data. In this paper, we propose feature selection method for multi-label data considering the dependency between labels. We experimented classification for demonstrating the superiority of proposed method. This shows that the proposed method is better than previous feature selection methods.