빅데이터 시장은 디지털 환경의 발전으로 인한 대량 데이터의 증가와 더불어 꾸준한 성장률을 보이는 추세이다. 기하급수적으로 늘어나는 데이터를 안전하게 활용하기 위하여 각 경제, 산업, 사회 분야에서는 비식별화에 대한 연구가 이루어지고 있다. 비식별화는 개인정보 침해의 가능성을 방지하기 위하여 반드시 진행해야 하는 필수 절차이다. 그러나, 국내 기준에 의하면 민감정보를 제외한 비식별 데이터는 K-익명화 프라이버시만 충족하여도 다양한 플랫폼에서 이용할 수 있다. 이는 낮은 보안 수준으로 개인정보 재식별의 위험이 발생할 수 있다.이에 본 논문에서는 재식별의 위험성을 낮추기 위하여 딥러닝 기반의 VAE를 변형하여 재현 데이터 생성 방식의 개인정보 비식별화 기법을 제안한다. 데이터의 분포를 학습하기에 최적화된 모델인 VAE는 유사한 분포를 생성하는 데 적합하지만 차원 축소로 인한 데이터 손실 문제가 발생할 수 있다. 이를 개선하기 위하여 본 논문에서는 기존 모델의 샘플링 과정 이후 정규 난수를 추가하는 방식을 적용하여 정보 손실을 최소한으로 줄일 수 있는 기법을 제안한다. 제안하는 기법의 성능 분석을 위하여 두 개의 딥러닝 모델을 직접 구현한다. 동일한 데이터를 이용하여 변형한 VAE 모델과 기존 VAE 모델로 비식별화한 결과를 비교한다. 원본 데이터와 두 모델의 비식별 데이터의 분포를 KL-divergence(Kullback-Leibler divergence)를 통하여 계산한다. 계산된 결과로 제안하는 기법의 성능을 분석한다. 본 논문에서 제안하는 개인정보 비식별화 기법은 원본 데이터의 분포와 유사하게 재현할 수 있는 비식별 데이터를 생성하여 개인정보의 재식별률을 감소시킨다. 또한, 재현 데이터는 법적인 제재 없이 이용할 수 있으므로 다양한 분야에서 활용성을 높일 수 있다.
The bigdata market is showing a steady growth rate along with the increase in mass data due to the development of the digital environment. In order to safely utilize the exponentially increasing data, research on de-identification is being conducted in each economic, industrial, and social field. De-identification is an essential procedure that must be carried out to prevent the possibility of personal information infringement. However, according to domestic standards, non-identification data excluding sensitive information can be used on various platforms even if only K-anonymized privacy is satisfied. This is a low security level, which may lead to a risk of re-identification of personal information.Therefore, in order to reduce the risk of re-identification, this paper proposes a personal information de-identification technique of a reproduction data generation method by modifying a deep learning-based VAE. VAE, an optimized model to learn the distribution of data, is suitable for generating similar distributions, but can cause data loss problems due to dimensionality reduction. To improve this, this paper proposes a technique that can minimize information loss by applying a method of adding regular random numbers after the sampling process of the existing model. Two deep learning models are directly implemented for performance analysis of the proposed technique. Using the same data, we compare the results of de-identification with the modified VAE model and the existing VAE model. The distribution of the original data and the de-identification data of the two models is calculated through KL-divergence (Kullback-Leibler divergence). We analyze the performance of the proposed technique as a result of the calculation. The personal information de-identification technique proposed in this paper reduces the re-identification rate of personal information by generating reproducible de-identification data similar to the distribution of the original data. In addition, reproduction data can be used without legal sanctions, which can increase utilization in various fields.