기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
효과적인 중복 포스트 검출 기법
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 효과적인 중복 포스트 검출 기법
저자명
이상철,이순행,박희진,김상욱,Lee. Sang-Chul,Lee. Soon-Haeng,Park. Hee-Jin,Kim. Sang-Wook
간행물명
정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터
권/호정보
2011년|17권 2호|pp.83-88 (6 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

최근, 블로그 사용이 활성화됨에 따라 중복포스트가 다량 생성되고 있다. 이 중복포스트들은 블로그 검색 성능 및 품질을 저하시킬 뿐만 아니라 원본 포스트와의 저작권의 문제를 발생시키기 때문에 이를 검출하고 필터링하는 것이 웹 검색 엔진에서 중요한 문제이다. 본 논문은 대용량 블로그 데이터베이스 환경에 적합한 중복포스트 검출 기법을 제안한다. 또한 이를 이용하여 블로그 포스트 검색 인덱스에 반영하지 않는 방안을 제안한다. 다양한 실험을 통하여 제안하는 기법의 우수성을 검증한다.

기타언어초록

Recently, duplications of blog posts increase with invigoration of blogsphere. Identifying and filtering duplicates are major concerns of web search engines because users do not want duplicates to appear in their search results and indexing of duplicates not only incurs waste of storage space but also increases search time. In addition, it gives rise to copyright infringement. In this paper, we propose a method for identifying duplicate posts in large blog-database environment. Our method effectively makes it possible to exclude the duplicate posts from the index for blog post searches. We show the effectiveness of the proposed method via extensive experiments.