- 메모리 기반의 기계 학습을 이용한 한국어 문장 경계 인식
- ㆍ 저자명
- 한군희,임희석,Han. Kun-Heui,Lim. Heui-Seok
- ㆍ 간행물명
- 한국콘텐츠학회논문지
- ㆍ 권/호정보
- 2004년|4권 4호|pp.133-139 (7 pages)
- ㆍ 발행정보
- 한국콘텐츠학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 논문은 기계 학습 기법 중에서 메모리 기반 학습을 사용하여 범용의 학습 가능한 한국어 문장 경계 인식기를 제안한다. 제안한 방법은 메모리 기반 학습 알고리즘 중 최근린 이웃(kNN) 알고리즘을 사용하였으며, 이웃들을 이용한 문장 경계 결정을 위한 스코어 값 계산을 위한 다양한 가중치 방법을 적용하여 이들을 비교 분석하였다 문장 경계 구분을 위한 자질로는 특정 언어나 장르에 제한적이지 않고 범용으로 적용될 수 있는 자질만을 사용하였다. 성능 실험을 위하여 ETRI 코퍼스와 KAIST 코퍼스를 사용하였으며, 성능 척도로는 정확도와 재현율이 사용되었다. 실험 결과 제안한 방법은 적은 학습 코퍼스만으로도 $98.82\%$의 문장 정확률과 $99.09\%$의 문장 재현율을 보였다.
This paper proposes a Korean sentence boundary detection system which employs k-nearest neighbor algorithm. We proposed three scoring functions to classify sentence boundary and performed comparative analysis. We uses domain independent linguistic features in order to make a general and robust system. The proposed system was trained and evaluated on the two kinds of corpus; ETRI corpus and KAIST corpus. As experimental results, the proposed system shows about $98.82\%$ precision and $99.09\%$ recall rate even though it was trained on relatively small corpus.