- 오픈 도메인 질의응답을 위한 검색문서 제약 및 정답유형 분류기술
- ㆍ 저자명
- 허정,류법모,장명길,김현기,Heo. Jeong,Ryu. Pum-Mo,Jang. Myung-Gil,Kim. Hyun-Ki
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2012년|39권 2호|pp.118-132 (15 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
오픈 도메인 질의응답을 위해서는 대용량 데이터에 대한 효율적인 검색제약 기술과 세부적인 정답유형 분류기술이 요구된다. 본 논문에서는 오픈 도메인 질의응답 시스템을 여행, 지역, 맛집 등의 도메인 질의응답 시스템과 뉴스, 위키피디아, 블로그 등의 콘텐츠 질의응답 시스템의 집합으로 구성한다. 대용량 데이터에 대한 효율적인 검색제약을 위하여 기계학습 및 패턴 기반 질문도메인 분류 기술, 확률기반 지역별 문서분류 기술을 적용한다. 질문에 대한 세부적인 정답유형 분류를 위하여 세부 개체 유형과 정의, 원인, 방법 등의 서술형을 포함한 약 200여개의 정답유형을 정의한다. 질문도메인 분류 및 질문정답유형 분류 모듈은 sSVM 기반 기계학습모텔과 어휘-구문 패턴 기반 규칙모델을 결합하였다. 정답유형에 대한 질문정답유형 분류 성능은 Macro-FScore가 82.38% 이고, 질문도메인 분류 성능은 Macro-FScore가 89.47%, 그리고, 지역별 문서분류 성능은 정확률 86.33%로 실제 시스템에서 활용 가능한 성능을 보였다.
Search space reduction method and fine-grained answer type classification method are the most essential parts of open-domain Q&A. In this paper, we define the open-domain Q&A system as a set of domain Q&A systems including travel, region, restaurant and a set of contents Q&A systems including news, blog and Wikipedia. We applied two novel methods to reduce document search space. One is a document classification method using location information extracted from target documents and the other is a question domain classification method. The document classification method using location information is essential for location dependent domains such as travel, region and restaurant domains. We also propose an answer type classification method. The method classifies approximately 200 answer types including factoid types and descriptive types such as definition, reason and method. We applied a combined method of machine learning based on sSVM and lexico-syntactic pattern matching method for the question domain classification and the answer type classification. The proposed method showed promising results. Our document classification based on location information showed the Precision of 86.33%. Our answer type classification method and question domain classification method showed Macro-FScore of 82.38% and Macro-FScore of 89.47%, respectively.