- 공통 Phrase의 관계 그래프와 Suffix Tree 문서 모델을 이용한 문서 군집화 기법
- ㆍ 저자명
- 조윤호,이상근,Cho. Yoon-Ho,Lee. Sang-Keun
- ㆍ 간행물명
- 한국콘텐츠학회논문지
- ㆍ 권/호정보
- 2009년|9권 2호|pp.142-151 (10 pages)
- ㆍ 발행정보
- 한국콘텐츠학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
기존의 문서 군집화 기법 NSTC은 문서 군집화 과정 내에서 TF-IDF를 이용하여 문서간 유사도를 측정한다. 본 논문에서는 TF-IDF가 아닌, 공통 Phrase의 관계 그래프를 이용한 새로운 문서간 유사도 측정을 제안한다. 이 방법은 문서 집합 내의 공통 Phrase들의 관계를 나타낸 관계 그래프를 통해 공통 Phrase의 가중치를 부여하는 방법을 제시한다. 또한 실험을 통해 NSTC와 비교하여 본 논문에서 제안한 문서간 유사도 측정 기법이 문서 군집화에 더욱 효과적임을 보였다.
Previous document clustering method, NSTC measures similarities between two document pairs using TF-IDF during web document clustering. In this paper, we propose new similarity measure using common phrase-based relational graph, not TF-IDF. This method suggests that weighting common phrases by relational graph presenting relationship among common phrases in document collection. And experimental results indicate that proposed method is more effective in clustering document collection than NSTC.