기타

개인정보를 AI로 판단하기

수달정보보호 2025. 5. 21. 09:24

개인정보란 단독으로건, 혹은 다른 정보와 쉽게 결합해 특정 개인을 식별할 수 있는 정보를 말한다. 그런데 여기서 '쉽게'라는 게 참 어려운 영역이다. 개인정보처리자 입장에서건, 정보주체 입장에서건 말이다. 왜냐하면, 법은 언제나 결코 현실의 기술 발전을 따라갈 수 없기 때문이다. AI는 날이갈수록 혁신을 거듭하고 있고, 구글 같은 메가기업에서나 다뤄질 것 같은 기술들이 점차 일반인에게도 현실적인 기술로 다가오고 있다.

 

그리고 AI가 개입함에 따라, 비정형 데이터의 식별 가능성에 대해서 주목할 필요가 있다. 나의 카카오톡 대화 내용, SNS 댓글 같은 조각들로도 개인을 식별할 가능성이 생길 것이기 때문이다.

 

예를 들어, 내가 '지구오락실'에 대한 코멘트를 남긴 것을 보고, AI는 나의 나이를 대략적으로 추측할 수 있을 것이다. 102030일 가능성이 높다고 볼 것이다. '지구오락실 시청을 즐긴다'라는 건 표면적으로는 비식별정보이지만, 그 맥락과 연관 데이터를 바탕으로 나의 연령대, 관심사, 플랫폼 사용 습관 등을 추론할 수 있을 것이다. 

 

즉, AI는 의미 기반의 정보로 개인을 식별할 수 있게된다는 것이다. 기존의 비식별화 모델은 구조화된 데이터만 다루지만, 현실적으로 우리는 언어, 행동, 취향으로도 개인을 알 수 있으며, AI는 더욱 그것을 가능케 한다는 점이 핵심이다.

 

만일, 내가 지금까지 입력한 정보로 나를 식별할 수 있는가를 정보주체가 판단할 수 있다면, 정보주체는 더욱 개인 식별 가능성이 있는 정보를 삭제하는 것에 적극적으로 임할 수 있을 것이다. 예를 들면, 카카오톡 대화 내역을 주기적으로 삭제한다던지, 메일함을 주기적으로 삭제한다던지, 갤럭시 통화녹음 내역 삭제 등의 행동을 유도할 수 있다는 것이다.

 

기대효과는 충분하고, 이를 위한 기술적 논의를 위해서는 의미 기반 데이터와 식별 가능성의 상관관계를 분석하는 것이 필요할 것이다. 그래서 분류 가능성, 식별률 등을 계량적 점수화할 수 있는 방안에 대해 고려할 필요가 있을 것이다.

 

이를 위한 데이터셋으로는 취향 정보, 언어 스타일, 관심 주제, 위치나 지역의 단서, 기기 정보, 시간 정보 등이 있을 것이고, 이를 통해 익명성 기반 라벨, 집단 고유성 점수, LLM 기반 상위 후보군 추출 등의 방식을 활용하여 라벨링을 할 수 있을 것이다. 그리고 그 결과를 위한 평가지표도 필요할 것인데, 대략적으로 당장 떠오르는 것은 식별 가능성 예측 정확도, 희귀성이나 유일성 기반 평가 정도가 있을 것이다.

 

 

 

728x90