- HDFS 암호화 성능 분석
- ㆍ 저자명
- 박선영,이영석,Park. Seonyoung,Lee. Youngseok
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2014년|41권 1호|pp.21-27 (7 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
하둡(Hadoop)은 대용량 데이터를 저장하고 처리하는 플랫폼으로 널리 사용되고 있다. 현재 하둡은 커버로스(Kerberos)를 통해 사용자 인증, HDFS(Hadoop Distributed File system) 및 맵리듀스 접근 권한 설정과 클러스터의 노드 관리 등을 제공하지만 아직 데이터를 암호화하여 저장하지 않는다. 또한 하둡은 방대한 양의 데이터를 하나의 클러스터에 저장하기 때문에 데이터 유출과 같이 기업에 막대한 피해를 초래하는 보안 사고에 매우 취약할 수 밖에 없다. 본 논문에서는 Java API에 포함되어 암호화 기능을 제공하는 JCA(Java Cryptography Architecture)를 이용하여 HDFS 암호화를 구현하고 성능 실험을 진행하였다. AES로 암호화된 HDFS의 성능 실험 결과, 암호화는 HDFS의 구조적인 한계로 한 대의 클라이언트에서 단일 쓰레드로 처리하기 때문에 25%의 성능 저하를 보였지만 복호화는 맵리듀스에 의해 HDFS에 저장된 데이터를 다수의 클러스터 노드가 처리하기 때문에 5%의 성능 저하만을 보였다. 또한 클러스터를 구성하는 노드 수를 5대에서 30대까지 늘리는 실험에서는 노드 수에 상관없이 3~4%의 성능 저하가 나타났다.
Hadoop is widely used as a platform for storing and processing large data sets. Hadoop supports Kerberos authentication and authorization for HDFS(Hadoop Distributed File system) and MapReduce, but files are not stored in an encrypted form. In addition, since Hadoop stores a huge amount of data in a cluster, data loss can cause a very serious security incident. This paper presents a more secure HDFS with encryption using JCA(Java Cryptography Architecture) and evaluates its performance. The evaluation results show a performance degradation of 25% during storing files to AES encrypted HDFS because it is processed by only a client and a single thread. In contrast, in the decryption in MapReduce, the overhead is only 5% on average since it is possible to decrypt encrypted files on multiple nodes. In addition, the results of the experiment under the different numbers of nodes show a marginal overhead of about 3~4%.