- 데이터 공개를 위한 트랜잭션 데이터 익명화
- ㆍ 저자명
- 김영훈,박형민,심규석,Kim. Young-Hoon,Park. Hyoung-Min,Shim. Kyu-Seok
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2011년|38권 3호|pp.133-140 (8 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
정부나 의료 기관, 회사에서는 여러 가지 데이터를 공개하여 연구목적이나 마케팅을 위해 유용하게 활용하도록 제공하고 있다. 그러나 공개된 데이터를 통해 개인의 사생활이 노출될 가능성이 있기 때문에 이를 막기 위해 익명화(anonymization) 방법이 최근 활발히 연구되고 있다. 본 연구에서는 쇼핑몰의 장바구니 데이터나 검색엔진의 질의 로그와 같이 정해진 속성이 없이 집합 형태를 갖는 데이터를 외부 사람들에게 공개하기 위한 익명화를 연구한다. 특히 물건을 구입한 내역 뿐만 아니라 구입하지 않은 정보를 통해서도 개인 정보 노출이 일어날 수 있다는 점을 고려해 (h,k,p,n)-coherence라는 모델을 제시하고 또한 정보 손실량을 최소로 하기 위한 그리디 알고리즘을 제안하였다. 그리고 실생활 데이터를 이용한 실험을 통해 기존의 연구와 비교하여 정보 손실량을 더욱 줄일 수 있음을 검증하였다.
Transaction data, which is a table of item sets where each item set is associated with an individual, is very common in databases such as basket data and query log in search engine. When a table containing individual data is published, disclosure of sensitive information should be prohibitive. Since simply removing identifiers such as name and social security number may reveal the sensitive information by linking attacks which join the published table with other public tables on some sets of items, several privacy preserving models such as k-anonymity and 1-diversity are proposed, and anonymization algorithms are also suggested previously. In this paper, we propose a novel privacy preserving model that prohibits the linking attacks with the information of absent items, which we call (h,k,p,n)-coherence, and suggest an approximation algorithm that guarantees (h,k,p,n)-coherence using item generalization and transaction appending. Experimental results confirm that our approximation algorithm performs significantly better than traditional approximation algorithms.