보안/개념

합성데이터 생성 참조모델(2024.05) 개념 추출

수달정보보호 2024. 7. 8. 20:46

★ 합성데이터

실제 데이터(Real Data)와 통계적 특성이 유사하여, 실제 데이터 분석결과와 유사한 결과를 얻을 수 있도록 새롭게 생성해낸 가상의 데이터

 

★ 합성데이터의 유형

① 완전 합성데이터 (Fully synthetic data): 생성하려고 하는 데이터에 실제 데이터가 하나도 없이 모두 가상으로 생성된 데이터

② 부분 합성데이터 (Partially synthetic data): 실제 데이터 중 일부 데이터셋 또는 일부 속성·변수를 선택하여 합성데이터로 대체한 데이터. 다른 속성은 그대로 두고, 민감성이 높거나 공개가 어려운 데이터만 합성데이터로 대체하는 방식 등으로 활용

③ 복합 합성 데이터 (Hybrid synthetic data): 일부 변수들의 값을 합성데이터로 생성하고 생성된 합성데이터와 실제 데이터를 모두 이용하여 또 다른 일부 변수들의 값을 다시 도출하는 방법으로 생성된 데이터

 

★ 합성데이터 활용 시 이점

① 안전성: 민감한 정보가 포함되어 데이터 활용에 우려가 있는 경우, 실제 데이터가 포함되지 않는 합성데이터를 생성하여 안전하게 활용가능

② 비용 효율성: AI 학습에 필요한 대규모 데이터를 직접 구축하는 것보다 합성데이터를 생성하여 활용하는 것이 비용면에서 훨씬 저렴*할 수 있음

③ AI모델 성능 향상: AI모델 고도화를 위한 실제 데이터가 부족한 경우, 합성데이터를 통해 가치 있는 학습데이터셋을 대량으로 구축 가능

④ 법적 제약 해소: 합성데이터는 분석 등 2차 목적의 데이터 활용에 대한법적 제약(추가 동의, 보호조치 등)을 해소하는 방법 중 하나로 활용 가능

⑤ 프라이버시와 유용성의 균형: 합성데이터는 프라이버시 보호와 데이터유용성 간의 상충 관계(Trade-off)를 극복할 수 있는 해결책이 될 수 있음

 

★ 합성데이터의 활용 목적

① 대중 공개 목적: 불특정 다수가 활용할 수 있도록 합성데이터를 대중에게 공개하기 위한 목적

② 테스트 분석 목적: 모델, 알고리즘, 분석 등을 보다 쉽게 개발하고 테스트하기 위한 목적

③ 기술 검증 목적: 새로운 SW·시스템의 결과를 평가· 검증하기 위한 목적

④ 교육 목적: 학생, 연구자 등이 데이터 과학, 통계, 분석 등을 배우기 위해 필요한 교육 목적의 고품질 데이터 제공

 

★ 합성데이터와 비식별처리의 차이점

'비식별처리' 일반적으로 데이터의 직접식별자, 간접식별자를 삭제하거나 일부 또는 전부를 대체하는 등의 방법으로 개인정보를 변형하는 것.

반면, '합성데이터'는 실제 데이터의 특성만 참조하여 실제 개인과 직접적인 관련이 없는 완전히 새로운 데이터셋을 생성해내는 방식임.

 

★ 합성데이터 생성 절차

① 사전 준비: 합성데이터 활용 목적 및 범위를 설정하고, 원본데이터의 특성을 검토하는 등 합성데이터 생성을 위한 사전 준비를 수행

② 합성데이터 생성: 생성방법을 결정하고 전처리를 수행한 뒤, 합성데이터를 생성

③ 유용성·안전성 검증: (유용성 검증) 합성데이터와 원본데이터가 얼마나 유사한지, 동일한 목표를 달성할 수 있는지 등을 검증. (안전성 검증) 합성데이터를 통해 원본데이터 내 개인이 식별· 추론될 가능성이 있는지 등을 검증

④ 활용: 구축한 합성데이터를 활용 목적·범위에 맞게 활용

 

★ 합성데이터 생성 모델 결정

① 가우스 혼합 모델: 통계기반 : 모수적기법으로, 원본데이터의 각 컬럼이 여러 정규분포가 혼합되어 있다는 가정 하에, 모수인 평균과 표준편차로부터 분포를 추정하고 각 분포에서 난수를 생성하는 기법

② synthpop-CART: 통계기반 : 비모수적 기법으로, 머신러닝의 CART 알고리즘을 사용하여 원본데이터를 이진트리에 저장하고 조건에 맞는 데이터를 조건부 확률분포를 이용해 순차적으로 생성하는 기법

③ CTGAN: AI기반 : 딥러닝 기법으로, 가짜데이터를 만들어내는 생성자 AI와 가짜데이터를 구별해내도록 하는 구분자 AI가 서로 대립하며 각각의 성능을 개선해나가는 방식으로 최적의 합성데이터를 생성하는 GAN을 기반으로 조건부 확률분포를 이용해 학습

728x90