기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법
저자명
신동욱,김태환,최중민,김정선,Shin. Dongwook,Kim. Taehwan,Choi. Joongmin,Kim. Jungsun
간행물명
정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
권/호정보
2013년|40권 4호|pp.220-232 (13 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

웹 마이닝과 정보 추출의 성능을 높이기 위해 유용한 정보와 불필요한 데이터가 함께 혼재된 형태의 웹 에이지를 블록으로 분할 후 해당 블록을 주 콘텐츠(primary contents)를 포함하였는지 아닌지 여부에 따라 정보 유형 혹은 비정보 유형으로 분류하고자 하는 연구가 활발히 진행되었다. 본 논문에서는 비정형화된 구조를 가지고 다양한 정보를 포함하는 연구자 홈페이지를 대상으로 콘텐츠 특성을 활용하여 정보 블록을 식별하고 해당 정보 블록을 콘텐츠 유형에 따라 세부적으로 분류하기 위한 DIRTA(Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages)를 제안한다. 또한 실제 웹상의 연구자 홈페이지를 기반한 일련의 실험을 통해 제안한 DIRTA의 효용성을 평가하였다. 블록 분류의 경우 정확률 88%, 재현률 89%, F1-measure 88%호 만족할만한 성능을 보이고 특히 비정보 블록의 분류 성능은 정확률 88%, 재현률 98%, F1-measure 93%로 비정보 블록을 올바르게 필터링하는 것을 확인할 수 있다.

기타언어초록

To improve the performance of Web mining and information extraction, previous studies, which segment Web pages consisting of a mixture of useful information and noise data into blocks and then classify those blocks to an informative type or a non-informative type depending on whether a block includes primary contents or not, are actively progressed. In this paper, we propose DIRTA (Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages) in order to discover informative blocks and to classify them into the content types of blocks in detail. Experiments were carried out with the academic homepages that actually exist on the Web and the results are satisfactory in the sense that the precision, recall and F1-measure of block classification of DIRTA are 88%, 89% and 88%, respectively, and in particular, the performance of classifying non-informative blocks shows the precision 88%, recall 98% and F1-measure 93%, which means DIRTA correctly filters non-informative blocks.