기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
문서의 영역분리와 레이아웃 정보의 추출
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 문서의 영역분리와 레이아웃 정보의 추출
저자명
조용주,남궁재찬
간행물명
한국통신학회논문지
권/호정보
1992년|17권 10호|pp.1131-1146 (16 pages)
발행정보
한국통신학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

본 논문은 이미 출판된 문서를 대상으로 문서의 영역을 분리하고, 문서의 구성요소와 레이아웃 정보를 추출하는데 새로운 알고리즘을 제안한다. 먼저 300 dpi로 입력된 문서에서 문서를 이루는 각 요소를 영역화 하기 위하여 레이 블링과 블럭화 작업을 행한다. 둘째로 블럭화된 문서의 각 요소를 대상으로 부분영역으로 분리를 수행한다. 셋째로 추출된 부분영역에서 그림영역을 추출하고 문자영역에 대해서는 문자열 추출 및 개변 문자 추출을 한다. 마지막으로 이렇게 추출된 정보로 문서의 레이아웃 인식을 위한 정보를 추출하였다. 실험은 어느정도의 형식을 가진 학회 논문지를 대상으로 하였으며, 문자와 그림 영역의 분류 및 문자열 추출에 대해서 98.5%의 성공율을 얻고, 레이아웃 인식을 위한 정보의 추출에서도 98%의 성과를 보였다.

기타언어초록

In this paper, we suggest a new algorithm applied to the segmentation of published documents to obtain constituent and layout information of document. Firstly, we begin the process of blocking and labeling on a 300dpi scanned document. Secondly, we classify the blocked document by individual sub-regions. Thirdly, we group sub-regions into graphic areas and text areas. Finally, we extract information for layout recognition by using the data. From an experiment on papers of an academic society, we obtain the above 98% of region classification rate and extraction rate of information for the layout recognition.