보안/논문

GPT를 활용한 개인정보처리방침 안전성 검증 기법

수달정보보호 2025. 1. 20. 21:54

빅데이터라는 말은 이제 자주 접할 수 있는 단어다. 점점 빅데이터 구축은 당연시되고 있으며, 빅데이터가 구축된다는 말은 그만큼 개인정보의 양도 방대해진다는 것을 의미한다. 개인정보의 양이 방대해지면, 당연히 개인정보 유출의 우려도 증가하기 마련이다. 각 기업 및 단체에서는 이를 위해 정보주체에게 1차적으로 개인정보 처리방침을 제공하고 있다. 나도 이번에 OO청의 개인정보 처리방침을 개정했는데, 개인정보 처리방침이 정말 '잘' 작성되었는지 확인하기는 쉽지 않다. 보통 1~2명이 제정 또는 개정하는 것이 일반적일 것이고, 그렇기에 실수가 있을 수도 있을 것이다. 문제는 그걸 바로 잡을 대상이 누구냐는 것이다. 그리고 그걸 GPT가 해줄 수 있을 것이다. 생성형 AI인 GPT-3.5 API가 도움이 될 수 있다는 것이다.

 

내가 개인정보보호 분야에서 일을 시작하며 여러 서비스의 개인정보 처리방침(이하 개처방)을 개인 학습 목적으로 읽고 정오를 따져보기도 했는데, 몇몇 기업에서는 분명하게도 불필요한 데이터를 수집하는 것을 확인할 수 있었다. 특정 서비스 및 기업을 이런 블로그에서 지적한다는 게 껄끄러워 게재는 하지 않았으나, 몇몇 기업은 절대 다수의 이용자들이 개처방을 확인하지 않는다는 것을 악용하는 것으로 보인다. 여기서 GPT를 이용한 '안전성 검증'이라는 것은 최신 법 개정에 발을 맞춘 최신화를 의미하는 것이 아니라, 앞서 말한 것처럼 불필요한 정보를 수집하는 등 안전성 자체를 검증하는 것이다. 즉, 악성 조항이 있는지, 있다면 무엇인지를 확인하고자 함이다.

 

논문에서는 GPT 활용법의 우수성을 따지기 위해 기존의 방법 중 하나인 블랙리스트 방법과 비교 및 대조하였다. 사실, 블랙리스트 방식은 정말 어려운 기법이다. 위험한 어절 및 단어를 모두 확인하여 구축을 해야 하기에, 탐지 기준 자체가 신뢰도가 높지 않아 결과물의 정확도 차이가 크다는 데 문제가 있다. 위험한 어절 및 단어라는 게 참 난해한데, 개처방은 회사에서 '자체적'으로 쓰는 것이기에, 사용하는 표현도 제각각이다. 특히, 정말 악의적인 기업은 일부러 난해한 표현을 사용하여 정보주체들이 알기 어렵게 만들 수도 있을 것이다. 그렇게 마음 먹고 난해한 표현을 사용하는 기업에 있어서는 블랙리스트 방식이 결코 적합하다고 할 수 없는 것이다. 예를 들어, '쿠키 데이터를 A에 전송한다'는 표현을 '웹사이트 접속시 접속자의 개인장치 및 브라우저에 다운로드, 저장되는 텍스트 파일을 A에 전송한다'고 바꾸면 틀린 말은 아니지만 결코 직관적이지 않은 말이 될 것이다. 그런 것들을 블랙리스트 방식으로 찾아낼 수는 없을 것이다.

 

한편, 블랙리스트 방식과 GPT 검증 방식의 메커니즘은 다음과 같다.

① 블랙리스트: 시작 - 개인정보 처리방침 내용 입력 - 블랙리스트에 등록된 어절과 개인정보 처리방침 내용 비교 및 대조 - 유사성 측정 - 사전에 설정된 임계치 < 유사성을 만족할 경우 안전하지 않은 문장으로 판정

② GPT: 시작 - 개인정보 처리방침 내용 입력 - GPT API에 투입 - GPT 자체적으로 안전/불안전 판정

 

결국, '유사함 판정'을 어떻게 하느냐가 차이점이다. 그것을 수동으로 하여 일종의 틀에서 가려낼 것이냐, AI에 맞길 것이냐인데, 앞서 설명한 이유를 토대로 생각해 보았을 때도 AI가 훨씬 유리할 것이다. 

 

이 논문에서 블랙리스트에는 500개의 항목이 있었고, GPT에는 약 1,750억 개의 파라미터가 있었다. 당연히 모든 상황에서 GPT가 압도적인 것은 두번 말하면 입 아프다. 데이터의 차이가 워낙 압도적이기 때문이다. GPT의 경우, 단지 성능에 따라 시간이 조금 소요될 뿐이다. 허나, 개인정보 분야에서는 명확한 결과를 얻는 게 가장 중요하며, 따라서 시간이 다소 소요되는 것은 큰 장애물이 아니라 생각한다. 

 

이 논문에서 GPT 기반 검증 방식은 블랙리스트 방식에 비해 평균 10.34% 높은 정확도를 보였으며, 이는 충분히 유의미한 수치일 것이다. 굳이 비유하자면 이상탐지와 오용탐지의 차이 같은 느낌이다. 더군다나, AI의 데이터는 갈수록 늘어가고 있으며, 정확도 또한 개선되고 있기에 위의 수치는 앞으로 더욱 개선될 여지가 있어 보인다. 따라서 개인정보 처리방침의 안전성 검증에 있어 GPT를 이용하는 것을 앞으로 쭉 고려해보는 것이 좋을 것이다.

 

 

 

출처: https://www.riss.kr/search/detail/DetailView.do?p_mat_type=1a0202e37d52c72d&control_no=33ee59bedef8fb9447de9c1710b0298d&keyword=%EA%B0%9C%EC%9D%B8%EC%A0%95%EB%B3%B4

728x90