기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
효과적인 외래어 이형태 생성을 위한 확률 문맥 의존 치환 방법
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 효과적인 외래어 이형태 생성을 위한 확률 문맥 의존 치환 방법
저자명
이재성,Lee. Jae-Sung
간행물명
한국콘텐츠학회논문지
권/호정보
2007년|7권 2호|pp.73-83 (11 pages)
발행정보
한국콘텐츠학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

완전 일치 방법을 주로 사용하는 정보 검색 시스템에서 외래어 이형태를 검색할 수 있도록 위해서는 외래어 이형태를 자동 생성하는 전처리나 질의어 확장이 필요하다. 본 연구에서는 하나의 외래어가 입력되면, 이를 근거로 실제 사용될 만한 외래어 이형태들을 효과적으로 생성하기 위한 방법을 제안한다. 혼동 자소를 단순하게 치환하는 방법은 불필요한 이형태를 과도하게 생성하므로, 본 연구에서는 실제 문서에 사용된 외래어 이형태들로부터 혼동 패턴을 학습하고, 이를 확률로 계산하여 생성 순서를 조절하였다. 특히, 혼동 패턴에서 좌우문맥을 고려하고 지역 치환 확률과 전역 치환 확률을 계산하여 조기에 많이 사용하는 이형태를 생성하도록 하였다. KT SET 2.0에서 추출한 이형태 데이터에 대해 실험한 결과, 상위 20개의 생성으로도 평균 80% 이상 찾아내어 이 방법이 매우 효과적임을 보였다.

기타언어초록

An information retrieval system, using exact match, needs preprocessing or query expansion to generate transliteration variants in order to search foreign word transliteration variants in the documents. This paper proposes an effective method to generate other transliteration variants from a given transliteration. Because simple rewriting of confused characters produces too many false variants, the proposed method controls the generation priority by learning confusion patterns from real uses and calculating their probability. Especially, the left and right context of a pattern is considered, and local rewriting probability and global rewriting probability are calculated to produce more probable variants in earlier stage. The experimental result showed that the method was very effective by showing more than 80% recall with top 20 generations for a transliteration variants set collected from KT SET 2.0.