문자 인식에 의해 구축된 한글 문서 데이터베이스에 대한 정보 검색

문자 인식에 의해 구축된 한글 문서 데이터베이스에 대한 정보 검색
Retrieving Information from Korean OCR Text Database

ㆍ 저자명: 이준호,이충식,한선화,김진형,Lee. Jun-Ho,Lee. Chung-Sik,Han. Seon-Hwa,Kim. Jin-Hyeong
ㆍ 간행물명: 정보처리논문지
ㆍ 권/호정보: 1999년|6권 4호|pp.833-841 (9 pages)
ㆍ 발행정보: 한국정보처리학회
ㆍ 파일정보: 정기간행물|
PDF텍스트
ㆍ 주제분야: 기타

이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.

서지반출

기타언어초록

문자 인식에 의해 구축된 문서들은 키보드 입력에 의해 구축된 문서들에 비하여 다수의 오류를 포함한다. 따라서 이러한 문서들로부터 원하는 정보를 검색하기 위해서는 다수의 오류를 포함하고 있는 문서들에 대한 효과적인 자동 색인 방법이 요구된다. 본 연구에서는 개별 문자 인식률 90% 수준의 문자 인식기에 의해 구축된 한글 문서 데이터베이스로부터 원하는 정보를 효과적으로 검색하기 위한 자동 색인 방법에 대하여 살펴본다. 실험 결과는 문자 인식에 의해 구축된 한글 문서 데이터베이스에 대해서는 형태소 단위 색인법과 2-gram 기반 색인법이 유사한 수준의 검색 효과를 제공함을 보여준다.

기타언어초록

The texts constructed with Optical Character Recognition(OCR) contain more errors than those constructed with keyboard typing. Therefore, in order to retrieve useful information from OCR texts, we need to develop an effective automatic indexing method. In this paer, we investigate automatic indexing methods that can retrieve information effectively from Korean OCR text database with the character-level recognition ratio of 90%. Experimental result shows that 2-gram indexing provides similar retrieval effectiveness of morpheme-based indexing for the Korean OCR text database.

다운URL