기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
의미 벡터 확장을 통한 유전자 클러스터링
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 의미 벡터 확장을 통한 유전자 클러스터링
저자명
쏭웨이,박순철,Song. Wei,Park. Soon-Cheol
간행물명
한국콘텐츠학회논문지
권/호정보
2009년|9권 3호|pp.1-8 (8 pages)
발행정보
한국콘텐츠학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

본 논문에서는 퍼지 논리 기반의 유전자 알고리즘(GA)과 의미 벡터 확장 기술을 이용한 문서 클러스터링 시스템을 제안한다. GA에 관련된 여러 논문에서 이미 알려졌듯이 GA알고리즘의 성공 여부는 군체의 다양성과 수렴하는 능력에 따라 결정된다. 이러한 두 인자 사이의 영향력을 조절하기 위하여 우리는 퍼지 논리 기반의 연산자를 사용한다. 전통적인 문서 클러스터링 알고리즘에서 문서를 나타내기 위한 가장 일반적이고 직선적인 방법은 벡터 공간 모델이다. 그러나 이 방법은 다차원 특징 공간의 원인이 될 뿐만 아니라, 클러스터링의 정확성에 영향을 미칠 수 있는, 단어 간의 의미상 관계성을 무시한다. 본 논문에서는 LSA를 사용하여 문서를 관련되는 의미상의 벡터 개념으로 확장시킨다. 또한 이것은 벡터의 크기를 크게 줄일 수 있다. 본 논문에서 제안한 클러스터링 알고리즘을 테스트하기 위하여 20개의 뉴스 그룹과 로이터 데이터를 사용했다. 제안된 방법은 문서를 표현하는 다양한 환경에서 일반적인 GA보다 더 나은 결과를 보여준다.

기타언어초록

This paper proposes a new document clustering system using fuzzy logic-based genetic algorithm (GA) and semantic vector expansion technology. It has been known in many GA papers that the success depends on two factors, the diversity of the population and the capability to convergence. We use the fuzzy logic-based operators to adaptively adjust the influence between these two factors. In traditional document clustering, the most popular and straightforward approach to represent the document is vector space model (VSM). However, this approach not only leads to a high dimensional feature space, but also ignores the semantic relationships between some important words, which would affect the accuracy of clustering. In this paper we use latent semantic analysis (LSA)to expand the documents to corresponding semantic vectors conceptually, rather than the individual terms. Meanwhile, the sizes of the vectors can be reduced drastically. We test our clustering algorithm on 20 news groups and Reuter collection data sets. The results show that our method outperforms the conventional GA in various document representation environments.