기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
문자 인식 기술을 이용한 데이터베이스 구축
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 문자 인식 기술을 이용한 데이터베이스 구축
  • Building Database using Character Recognition Technology
저자명
한선화,이충식,이준호,김진형
간행물명
정보처리논문지
권/호정보
1999년|6권 7호|pp.1713-1723 (11 pages)
발행정보
한국정보처리학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

문자 인식 기술은 인쇄도니 형태로 존재하는 수많은 정보를 데이터베이스화 할 수 있는 가장 유용한 대안이다. 본 논문에서는 문자 인식 기술을 사용한 데이터베이스 구축의 타당성을 조사하기 위하여, 문자인식기를 사용한 데이터베이스를 시범적으로 구축하였다. 우선 데이터베이스를 구축할 때 문자 인식기의 선택 시 고려하여야 할 사항들을 살펴보고, 이를 기준으로 4가지의 상용 문자 인식기에 대한 인식 실험을 거친 후 그 중 인식 성능이 가장 좋은 것을 선택하였다. 대상 문서로는 다양한 인쇄 품질 및 특성을 갖는 실제 논문집의 초록을 대상으로 삼았으며, 대량 데이터에 대한 인식률 계산을 위해 수작업된 데이터베이스가 있는 KT 테스트 컬렉션[1]을 선택하였다. 실험은 실제 대용량 데이터베이스 구축과 유사한 환경을 만들기 위해, 문서별 학습이나 기울기 보정 등의 사전 작업을 생략하였다. 실험 결과 970편의 논문 요약문에 대해 평균 문자 인식률 90.5%를 보여, 한글 문자 인식 기술이 아직 데이터베이스 구축에 활용되기에는 이르다는 것을 보였다. 문자 인식에 의한 인식 오류에서는 수작업 한 문서에서 발견되는 오류와는 상이한 유형이 많이 발견된다. 본 논문에서는 추후의 연구를 위하여 문자 인식 텍스트에서 나타나는 오류의 유형을 분류하였다.

기타언어초록

Optical character recognition(OCR) might be the most plausible method in building database out of printed matters. This paper describes the points to be considered when one selects an OCR system in order to build database. Based on the considerations, we evaluated four commercial OCR systems, and chose one which shows the best recognition rate to build OCT-text database. The subject text, the KT-test collection, is a set of abstracts from proceedings of different printing quality, fonts, and formats. KT-test collection is also provided with typed text database. Recognition rate was calculated by comparing the recognition result with the typed text. No preprocessing such as learning and slant correction was applied to the recognition process in order to simulate a practical environment. The result shows 90.5% of character recognition rate over 970 abstracts. This recognition rate is still insufficient for practical use. The errors in OCR texts are different from those of manually typed texts. In this paper, we classify the errors in OCR texts for the further research.