본문 바로가기
TREND/ISSUE KEYWORD

빅데이터 활용 : 개인정보 수집 이용 제공 동의, 비식별화 과정 / 이루다 AI를 보며 느낀 문제점

by ojava 2021. 1. 19.
반응형

요즘 세상은 사건 사고가 끊이지 않고 뉴스에도 세상 살기 어려운 얘기만 잔뜩이라 보기도 싫다. 너무 편파적이고 자극적이게만 보도하려는 느낌에다가 했던 얘기 또 하고 방송사마다 다를 게 없는 것도 지겨워져서 넷플릭스 틀거나 동물 나오는 유튜브를 찾아보는게 요즘 낙이다.

이래저래 단련이 된건지 이제 어지간한 걸로는 별로 놀랍지도 않은데 (아 그것이 알고싶다는 상상도 못해본 쓰레기짓을 하는 놈들이 너무 많이 나와서 논외로 하자) 최근에 이슈가 됐던 일은 앞으로도 계속 이런 일들이 벌어질까봐 우려스러운 마음이 들어서 좀 더 찾아보게 되었다.



연애의과학 이라는 커플 심리 분석 서비스를 제공하는 스캐터랩에서 출시한 이루다 라는 AI 서비스가 내가 생각한 가장 주목해야 할 문제가 아닐까 싶다.

사실 인스타 등에서 연애의과학에서 제공하는 컨텐츠를 몇 번 본적이 있는데 이미지를 넘기다보면 결론은 본인들 사이트에 들어와서 컨텐츠를 소비해라~ 앱을 깔아라~ 그런 내용이라 몇 개 보다가 흔한 광고 계정이구나 하고 넘어갔더랬다.



그리고 얼마전 이슈가 되었던 이루다 AI가 그 연애의 발견에서 파생되어서 나온 서비스라는 걸 알게되었다.



현재는 서비스가 중단된 인공지능 챗봇 이루다. 출처 luda.ai 사이트 캡쳐




이 AI가 나오게 된 배경도 아찔한 부분이 있는게, 연애의 과학이라는 서비스에서 커플이 나눈 카카오톡 메시지를 업로드하면 메시지를 주고 받는 빈도나 내용을 분석해서 애정도 등을 파악해주는 서비스를 제공했다고 한다.
심지어 이 서비스는 유료 서비스임에도 꽤나 많은 사람들이 사용했다고 한다.

본론부터 말하면 사용자들이 올린 카카오톡 대화 내용을 기반으로 학습시킨 AI가 대화 과정에서 카카오톡 내용을 이용해서 답변을 하는 과정에서 이름이나 개인적인 내용까지도 포함되어 답변을 했다고 한다.

A야 라고 부르면 웅 B야 이런식으로 난데없는 실명공개 대화가 이어지더라는 거다.



카톡 대화를 통한 서비스를 안내하는 페이지에 소개하는 글로 써둔 바로는(변태스럽게도 라는 말을 덧붙여놨는데 집요하게 연구했다는 긍정적인 느낌으로 안느껴지는 건 나만의 착각일거다) 5년간 연구했고 150만 명의 남녀가 주고받은 60억 개가 넘는 카톡 메시지를 분석했다고 한다.


출처 - 연애의 과학 웹사이트 캡쳐



+ 여담으로 말하는거지만 사이트를 접속할 거라면 신중한 장소에서 클릭 하시길. 사이트 맨 상단에 올려진 글 수준이 너무 적나라해서 내가 언제 성인인증을 받았나 싶을 정도이니 오해받기 쉽다.




이 과정에서의 개인정보보호를 위해 카톡 메시지를 형태소 단위로 패턴화해서 알고리즘으로 분석한다고 써두었던데 분석 방법까지는 잘 모르겠지만 이 서비스를 사용함으로 인해 개인정보가 어떻게 이용 또는 제공될 수 있는지에 대한 고지가 되었는지가 궁금했다.

또한 데이터를 수집하는 과정이 합법적이었을지라도 이를 사용하는데 있어서, 특히 연인 사이의 민감한 정보가 포함된 이 대화 내용을 다룸에 있어서 업체는 생각 이상으로 더 조심했어야 한다고 생각한다.



이번 이슈로 인해 빅데이터를 이용한 서비스가 가질 수 있는 문제점, 그리고 이를 막기 위해 적절히 그리고 당연히 취했어야 하는 방법들이 제대로 지켜지지 않았다는 점에서 너무 안타깝고 이후 빅데이터를 활용한 획기적인 서비스가 나올 때 이 사건으로 인해 더 어려워지지 않을까 우려스럽다.
물론 규제나 정책이 있어야하겠지만 넘을 수 없는 장벽으로 여겨져서 기술의 발전에 비해 활용이 불가한 지경에만 이르지 않기를 바란다.





1. 개인정보 수집/이용/제공 동의 절차


첫 번째로 궁금했던 점은 이러한 개인정보에 대한 수집과 이를 이용하고 또 분석을 위해 위탁 제공 등을 하는 과정에서의 동의를 어떤 방식을 거쳤는가 이다.

이 글 쓰자고 그 앱 다운받아서 가입 절차를 거치고 싶지도 않지만 아마 개인정보 수집 이용 제공 동의 절차를 거쳤다고 하더라도 다들 제대로 보지도 않고 체크하고 동의했을 게 분명하다. 정말 중요한 계약이 아닌 이상은 나도 그래왔고 모두들 그렇게들 하니까.

개인정보 동의 캡쳐 화면을 찾던 중 최근 스캐터랩에서 올린 입장문에 이어 최근 글에 개인정보 관련 답변이 있어 추가한다.


출처 - 핑퐁 블로그 https://blog.pingpong.us/luda-official-apology-faq/ 답변 내용 캡쳐




수집된 메시지 정보가 신규 서비스 및 마케팅, 광고에 활용될 수 있다는 점이 개인정보 취급방침에 설명되어 있다고 한다.
사실 비용을 지불하거나 무료 서비스 방식에서 정보를 수집해도 모자랄판에 비용을 받으며 제공한 서비스의 기초 데이터를 신규 서비스 개발용도로 썼다니.

사실 고지한 사항이고 누구나 동의하기 전에 해당 내용을 열어볼 수 있기에 법적으로 문제는 없겠지만 법적으로도 이런 주요사항에 대해서 더 쉽게 알 수 있도록 표시하는 방법을 더 강구해야 한다고 생각한다.
그리고 제공하는 서비스 이외의 다른 목적으로 이용될 수 있다는 점에 대해서 강조하는 방식에 대해서도!

고지했다고 책임을 피할 수는 있겠지만 다른 것도 피하긴 어렵지 않을까?



2. 빅데이터 이용을 위한 비식별화 처리 과정


방대한 양을 다루다보니 그 데이터 안에 개인을 식별할 수 있는 정보가 담겨있을 가능성이 있다. 이 경우는 대화 내용이므로 개인정보는 물론이며 민감 대화도 포함될 수 있다는 점도 이슈가 되겠지만 기본적으로 빅데이터를 활용하기 전에 비식별화라는 과정을 거쳐야 한다.

비식별화란 개인을 식별할 수 있는 정보 중의 일부 또는 전체를 삭제하거나 대체하여 다른 정보와 결합하여도 특정 개인을 식별할 수 없게끔 하는 과정을 말한다.

이미 미국과 영국은 나라별로 정한 비식별화 가이드라인이 있는데 이 중 몇 가지만 사례로 들어 소개해본다.

김석우 / 83.04.05 / 개발자 / 블로거 라는 개인정보가 있다고 했을때, 개인을 식별할 수 있는 정보를 숨기거나 변경해보자.

예시) 김** / 30대 / 개발자 / 블로거
- 이 방식은 이름의 일부 데이터를 마스킹처리하는 정형 비식별화 방식과 83년생이라는 정보를 조금 더 식별할 수 없게끔 통계적 비식별화 방식으로 30대라고 변경하였다.
- 통계적 비식별화의 경우, 데이터 일부가 유실되는 단점이 있으니 세세한 값이 중요한 경우 사용하면 안되겠다.



검색하다가 한국인터넷진흥원 KISA에서 2018년 7월 4일에 개인정보 비식별화 가이드라인이 배포되어 해당 내용 공부할겸 쓰면서 간략하게 정리한다.


1) 가명처리 : 이름 혹은 거주지역, 출신대학, 회사명 등을 기존 정보와 다르게 바꾸어서 처리
ex) 김지훈, 30대, 서울거주, 자바주식회사
2) 총계처리 : A의 키 150cm, B의 키 170cm, C의 키 175cm >> 이와 같은 정보를 컴퓨터 공학과 키 평균 xx, 총합 xx 이런 식으로 데이터를 변경
3) 데이터 삭제 : 주민번호의 경우를 예로 들어, 생년월일과 성별을 제외한 나머지 부분을 삭제하는 방식
4) 데이터 범주화 : 식별이 어렵도록 특정 구간에 포함된 것으로 표시. ex) 김씨, 30~40세
5) 데이터 마스킹 : 가장 잘 알고 있는 방식으로 알아보기 어렵게 이름 등의 정보를 마스킹 처리. ex) 김**, 39세, 서울거주, **주식회사

위 방법 외 여러 가지 기법을 단독 혹은 복합적으로 사용할 수 있다. (단, 가명처리 기법만 단독 사용한 경우 충분한 조치라고 보기 어려움)


한국인터넷진흥원 KISA 개인정보 비식별 가이드라인 중 비식별 조치 방법




https://www.kisa.or.kr/public/laws/laws2_View.jsp?cPage=1&mode=view&p_No=282&b_No=282&d_No=3&ST=&SV=

고시·권고 < 관련법령·기술안내서 < 자료실 : 한국인터넷진흥원

고시·권고

www.kisa.or.kr




스캐터랩에서 이루다와 관련해 작성한 답변은 읽다보니 개인정보 취급에 대해 완전 무지했던 것도 아니고 빅데이터를 이용함에 있어서 비식별화 과정을 아예 거치지 않은 것도 아니지만 예외적인 사항이 있었던 것으로 보인다.
하지만 조사는 진행중이고 이와 관련한 논란도 쉽게 사그러들지는 않을 듯 하다. 상세한 내용과 판단은 읽는 여러분에게 맡기기 위해 관련 링크를 첨부하며 마무리한다.

https://blog.pingpong.us/luda-official-apology-faq/

2021년 1월 15일: '이루다' 2차 Q&A

스캐터랩에서 알려드립니다.

blog.pingpong.us





반응형