기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
한국어 형태소 분석을 위한 음절 단위 확률 모델
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 한국어 형태소 분석을 위한 음절 단위 확률 모델
저자명
심광섭,Shim. Kwangseob
간행물명
정보과학회논문지
권/호정보
2014년|41권 9호|pp.642-651 (10 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

본 논문에서는 음절 단위의 한국어 형태소 분석 방법에 적용할 수 있는 세 가지 확률 모델을 제안하고, 품사 태깅 말뭉치를 이용하여 각 확률 모델의 성능을 평가한다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치를 10 개의 세트로 나누고 10 배수 교차 검증 결과 98.4%의 정답 제시율을 얻을 수 있었다. 제안된 확률 모델은 각 음절에 대하여 품사 태그를 먼저 부착한 후 원형 복원 및 형태소 생성을 하기 때문에 원형 복원을 먼저 하는 기존 확률 모델에 비하여 탐색 공간이 크게 줄어들어 형태소 분석 과정이 훨씬 간결하고 효율적이어서 분석 속도가 기존의 초당 수 백 어절에서 14만 7천 어절로 약 174배 가량 향상시킬 수 있었다.

기타언어초록

This paper proposes three probabilistic models for syllable-based Korean morphological analysis, and presents the performance of proposed probabilistic models. Probabilities for the models are acquired from POS-tagged corpus. The result of 10-fold cross-validation experiments shows that 98.3% answer inclusion rate is achieved when trained with Sejong POS-tagged corpus of 10 million eojeols. In our models, POS tags are assigned to each syllable before spelling recovery and morpheme generation, which enables more efficient morphological analysis than the previous probabilistic models where spelling recovery is performed at the first stage. This efficiency gains the speed-up of morphological analysis. Experiments show that morphological analysis is performed at the rate of 147K eojeols per second, which is almost 174 times faster than the previous probabilistic models for Korean morphology.