기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축
  • Automatic Construction of Korean Unknown Word Dictionary using Occurrence Frequency in Web Documents
저자명
박소영,Park. So-Young
간행물명
韓國컴퓨터情報學會論文誌
권/호정보
2008년|13권 3호|pp.27-33 (7 pages)
발행정보
한국컴퓨터정보학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

본 논문에서는 한국어 형태소 분석의 성능향상을 위해서, 어절에서 미등록어를 인식하여 자동으로 사전을 구축하는 방법을 제안한다. 제안하는 사전 구축 방법은 전문 분석 기반 사전 구축 방법과 웹 출현빈도 기반 사전 구축방법으로 구성되어 있다. 전문 분석 기반사전 구축 방법은 전체 문서에서 반복적으로 나타나는 문자열을 미등록어로 인식하고, 웹 출현빈도 기반사전 구축 방법은 반복되지 않은 문자열을 웹 문서에서 검색하여 그 출현빈도를 바탕으로 미등록어를 인식한다. 실험결과 전문 분석만을 바탕으로 하는 기존 접근방법에 비해서 웹 문서에서의 출현빈도도 함께 고려하여 제안하는 사전 구축 방법은 32.39% 정도 재현율이 높게 나타났다.

기타언어초록

In this paper, we propose a method of automatically constructing a dictionary by extracting unknown words from given eojeols in order to improve the performance of a Korean morphological analyzer. The proposed method is composed of a dictionary construction phase based on full text analysis and a dictionary construction phase based on web document frequency. The first phase recognizes unknown words from strings repeatedly occurred in a given full text while the second phase recognizes unknown words based on frequency of retrieving each string, once occurred in the text, from web documents. Experimental results show that the proposed method improves 32.39% recall by utilizing web document frequency compared with a previous method.