기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
Na$ddot{i}$ve Bayes 방법론을 이용한 개인정보 분류
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • Na$ddot{i}$ve Bayes 방법론을 이용한 개인정보 분류
저자명
김남원,박진수,Kim. Nam-Won,Park. Jin-Soo
간행물명
지능정보연구
권/호정보
2012년|18권 1호|pp.91-107 (17 pages)
발행정보
한국지능정보시스템학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

인터넷의 성장과 개인의 참여는 사생활 정보 보호에 관련된 비효율적 관리 방안에 대한 문제의식을 불러일으키고 있으며 이를 해결하기 위한 여러 연구들이 이루어지고 있다. 본 연구에서는 기존에 존재하는 문서 분류 방법론을 이용하여 개인의 사적 공간을 나타내는 프라이버시의 항목 중 개인을 식별할 수 있거나 개인이 민감해 할 수 있는 사생활 정보를 담고 있는 문서를 탐지 혹은 분류하는 방법에 대해서 다룬다. 논문의 실험에서 기존의 학습데이터에 추가적으로 개인정보의 유형에 관련된 하위 학습 데이터를 추가함으로써 자동 문서 분류 알고리즘의 성능 측정치를 높이는 것을 시도하였다. 또한 개인정보의 유형에 따라 알고리즘에 효과적으로 적용하는 방향을 제시하기 위하여 기존 논문에서 나타난 개인정보의 유형들을 분석하였다. 개인정보 관련 문서로 분류된 학습 대상과 함께 개인정보에 영향력이 있는 개인정보 유형들을 추가 학습시켜 알고리즘이 학습하는 문서 자질(feature)의 질(quality)을 높였다. 높아진 학습 자질의 질로 인하여 기존의 Na$ddot{i}$ve Bayes 방법론을 이용한 평가 측정치가 높아질 수 있었다.

기타언어초록

As the Internet becomes more popular, many people use it to communicate. With the increasing number of personal homepages, blogs, and social network services, people often expose their personal information online. Although the necessity of those services cannot be denied, we should be concerned about the negative aspects such as personal information leakage. Because it is impossible to review all of the past records posted by all of the people, an automatic personal information detection method is strongly required. This study proposes a method to detect or classify online documents that contain personal information by analyzing features that are common to personal information related documents and learning that information based on the Na$ddot{i}$ve Bayes algorithm. To select the document classification algorithm, the Na$ddot{i}$ve Bayes classification algorithm was compared with the Vector Space classification algorithm. The result showed that Na$ddot{i}$ve Bayes reveals more excellent precision, recall, F-measure, and accuracy than Vector Space does. However, the measurement level of the Na$ddot{i}$ve Bayes classification algorithm is still insufficient to apply to the real world. Lewis, a learning algorithm researcher, states that it is important to improve the quality of category features while applying learning algorithms to some specific domain. He proposes a way to incrementally add features that are dependent on related documents and in a step-wise manner. In another experiment, the algorithm learns the additional dependent features thereby reducing the noise of the features. As a result, the latter experiment shows better performance in terms of measurement than the former experiment does.