-나도 모르게 남기는 ‘온라인 족적’
-데이터로 확진자 추적, 코로나19 확산 막았다! 
-데이터 활용도 높아질수록 ‘정보 보호’ 필수

 

▲영화 '서치'(2018)의 한 장면
▲영화 '서치'(2018)의 한 장면

 

“최근에 내 딸 마고가 이상한 행동을 하지 않았니?” 
“네, 텀블러를 많이 사용했어요.” 
“뭐? 텀블러가 뭔데?” 
나는 내 딸에 대해서 아는 것이 없다. 

-영화 <서치> 중 

영화 <서치>(2018)는 갑자기 사라져 버린 딸을 찾는 아버지의 이야기다. 암으로 아내를 잃고 딸과 단둘이 살고 있던 데이빗. 어느 날 목요일, 딸은 부재중 전화 3통만을 남긴 채 갑자기 사라져 버린다.  

막막해 하는 데이빗의 눈에 띈 것은 딸의 노트북. 데이빗은 딸의 노트북 안에 담겨 있던 보고서 파일, 인터넷 기록, 메일, 채팅, 영상, 방송 기록을 살피면서 딸의 삶을 추적해 나간다. 과연 데이터 기록만으로 실종된 딸을 찾는 게 가능한 걸까?    
 
나도 모르게 남기는 ‘온라인 족적’  
우리는 시간이 날 때마다 핸드폰을 들여다보며 생활한다. 심지어 걸어가면서도 핸드폰을 들여다본다. 그렇기 때문에 이렇게 온라인 흔적을 쫓아 실종된 딸의 행방을 추적하는 영화 내용이 전혀 낯설지가 않다. 과연 온라인에는 어떤 흔적이 남아 있을까.    
 
체크카드로 인터넷 쇼핑을 하고, 커피를 마시며 쉬면서 친구들과 페이스북 메시지를 보내고, 전화 통화를 하고 문자를 주고받고, SNS에 글을 올린다. 이러한 행동은 자신이 방문한 장소, 통화한 위치와 시간, 대화 기록, 사진, 이메일, 시청한 영상, 사용한 카드, 주고받은 문자, 검색한 기록, 구매 이력과 같은 흔적을 남긴다.    

안드로이드 운영체제의 스마트폰을 쓰고 있다면 구글맵을 열고 타임라인이라는 메뉴를 클릭해 보자. 도보, 지하철, 운전을 해서 몇 분 동안 이동했고 그 장소에서 얼마 동안 머물렀는지가 기록돼 있을 것이다.

오른쪽 위 달력을 클릭해 원하는 날짜를 선택해 보면 그날 언제 어디로 이동했고, 거기서 얼마 동안 머물러 있었는지도 볼 수 있다. 이제 구글 계정에 있는 ‘데이터 및 맞춤 설정’을 클릭해 보자. 언제 어떤 앱을 얼마 동안 사용하고 어떤 검색을 하고 어떤 유튜브를 시청했는지 기록돼 있다.  

분명한 것은 구글은 여러분에 대해서 여러분보다 더 잘 알고 있다는 것이다. 당신의 집이 어디이고 무슨 뉴스를 보고 어디로 움직이는지 그리고 인터넷으로 무엇을 검색하고 무엇을 좋아하는지 다 파악이 가능하다.

아마도 우리가 실제 만나는 사람들보다 구글과 더 많은 시간을 보내고 있을 것이다. 그렇다 보니 온라인에서 남긴 데이터가 의도치 않게 현실 속 나보다 더 진실한 모습을 보이는 경우가 심심치 않게 있다.  

데이터로 확진자 추적, 코로나19 확산 막았다!  
영화 <서치>에서 데이터를 이용해 딸을 찾아가는 것처럼 2020년에 데이터로 사람을 추적하는 일이 전 세계적으로 일어나게 된다. 바로 전염병인 코로나19 때문이다.

우리나라는 발 빠르게 빅데이터를 활용해 코로나19 확진자의 동선을 추적하고 관련 정보를 대중에게 공개함으로써 코로나 확산을 효과적으로 막았다. 많은 나라가 코로나 방역에 실패하면서 한국의 대처 방법에 대해 지대한 관심을 가졌다.

우리나라는 내비게이션 정보, 신용카드, 대중 교통카드, CCTV 정보를 수집해 코로나 역학조사 시스템을 구축했다. 이 시스템을 활용하면 10분 만에 확진자의 동선을 파악할 수 있다고 한다. 어떻게 확진자의 동선을 파악할까. 

내비게이션 데이터를 이용하면 개별 차량의 이동 궤적, 각 도로 구간의 평균 속도와 교통량을 추정할 수 있다. 또 국민 대부분이 소유하는 스마트폰을 통해 위치 데이터를 얻어 이동 궤적, 체류 시간을 파악할 수 있다고 한다.

대중 교통카드로는 승·하차 태그 정보와 역사(驛舍), 정류장, 나이, 성별 등 다양한 속성 정보를 수집하고, CCTV에서는 마스크 착용 여부, 동행자 유무, 버스나 택시 등 이동 수단 및 노선 번호와 같은 정보를 얻을 수 있다.

이렇게 빅데이터를 활용하여 개별 통행에 대한 이동 경로, 이용 수단, 통행 목적 등 다양한 정보를 파악하게 된다. 이를 통해 바이러스 감염자의 통행 이력과 접촉자들을 신속하게 파악하고 감염 가능성이 큰 집단을 집중적으로 검사함으로써 효율적인 대처가 가능했던 것이다.

하지만 전염병 확산 초기에는 이런 확진자의 동선을 공개하는 것에 대한 논란이 있었다. 이동 경로를 알리는 과정에서 신상 정보가 유출되는 경우도 생기고, 코로나 확진자에 대한 악성 댓글이 달리면서 이 때문에 힘들어하는 사람도 생겨났다.

프랑스에서는 한국의 감염자 동선 공개가 인권 침해라며 비판하기도 했다. 하지만 곧 프랑스에서도 코로나19 감염자가 수만 명으로 늘어나자 이동과 여행을 전면 금지하고 한국의 방역 방식을 연구했다.

우리나라가 이렇게 감염 초기 단계부터 확진자의 동선을 공개한 이유는 2015년에 발생한 메르스(MERS, 중동호흡기증후군) 사태 때문이었다. 당시 메르스 확진자가 머물렀던 병원과 발생 지역에 대한 정보를 공개하지 않아 감염이 늘면서 조속히 대처하기가 어려웠다.

이런 경험을 바탕으로 우리나라는 ‘감염병예방법 제34조의 2항’을 신설하고 감염병 환자의 이동 경로, 이동수단, 접촉자 현황 등을 신속히 공개했다. 이에 따라 감염병 환자는 물론이고 감염이 우려되는 사람의 휴대 전화 위치 추적이 본인의 동의 없이도 가능했던 것이다.

코로나19 사태는 빅데이터의 유용성과 이에 대한 정보 보호에 대한 문제에 대해서 깊이 생각해 보는 계기가 되었다. 개인 정보를 무조건 보호하기보다 과감하게 활용하는 방법을 연구하되 정보 보호를 구체적으로 해나갈 필요성이 높아지고 있다.

데이터 활용도 높아질수록 ‘정보 보호’ 필수  
<서치>에서 그려진 것처럼 온라인상에는 우리 자신의 흔적이 많이 있다. 그런데 이러한 사실을 놓고 보면 우리는 불안할 수밖에 없다. 빅데이터 활용도가 높아지고 금전적인 가치도 커지고 있으므로 이런 정보가 잘못 사용되어 사생활 침해나 범죄에 이용될 가능성 또한 높아지고 있기 때문이다.

개인 정보 보호와 데이터 활용성은 언제나 동전의 양면처럼 빅데이터의 두 얼굴을 보여 준다. 개인 정보 보호를 강조하면 데이터의 활용성이 낮아질 수밖에 없고, 데이터 활용성을 강조하다 보면 정보 보호 침해 가능성이 커질 수밖에 없다.

지금 데이터베이스 안에는 누군가를 바로 알 수 있는 주민등록번호, 의료보험번호, 의료 정보가 있고, 출입을 위해 등록한 지문과 홍채 정보 같은 민감한 자료가 많다. 따라서 이런 정보들을 보호할 수 있는 기술을 개발해야 할 필요성이 점점 늘고 있다. 

이에 최근에는 데이터 활용성을 유지하면서 개인 정보를 보호할 수 있는 비식별화 데이터를 개발하고 있다. ‘비식별화 데이터’는 개인을 식별할 수 있는 요소를 전부 또는 일부 삭제하거나 대체하는 방법으로 가공한 정보다.

즉, 민감한 데이터 정보를 일부 삭제하거나, 가명처리 혹은 그룹으로 묶어 동일한 값을 주거나, 다른 값으로 대체하는 방법을 사용해 정보 노출의 위험성을 줄이는 방법이다. 이렇게 데이터에 잡음을 주어 특정 개인의 정보를 파악할 수 없도록 하는 것이다.

그러나 비식별화 조치를 해도 데이터를 연결하고 분석하는 과정에서 재식별화되기도 한다. ‘재식별화’는 비식별화된 정보를 조합하고 분석하는 과정에서 개인 정보가 재생성되는 것을 의미한다. 개인 정보를 삭제했는데 재식별화되어 문제가 된 사례가 생기고 있어서 이에 대한 주의가 요구되고 있다.

2006년 미국 넷플릭스는 더 정확한 영화 추천 알고리즘을 만들기 위해 아이디어 경연 대회를 열었다. 아이디어를 돕기 위해 50만명 이용자들이 6년 동안 영화를 평가한 자료 1억 건을 공개했는데 이때 이름 등 개인을 알아볼 요소는 지우고 평가 점수와 일시는 공개했다.

텍사스대학교 연구팀이 이 정보를 분석해 온라인 영화 전문 사이트에 올라온 영화 평가와 넷플릭스의 데이터를 결합하여 개인을 재식별해 냈다. 이런 위험성 때문에 2차 경연 대회는 취소했다고 한다.

또한 2006년 미국 AOL(아메리카 온라인)은 학술 연구를 위해 65만 명의 석 달 치 검색 로그 자료 2천만 건을 공개했다. 개인을 식별할 수 있는 ID와 IP 주소는 비식별화했지만 뉴욕타임스 기자 2명이 개인 식별에 성공하면서 검색 로그를 공개한 지 일주일 만에 데이터 공개를 중지했다고 한다.

이처럼 재식별화 사례가 끊이지 않고 있어 개인 정보를 보호하기 위한 기술이 더 정교해져야만 안심하고 비식별화 데이터를 활용할 수 있게 될 것이다. 정보 보호 문제에 모두 관심을 갖고 디지털상의 인권에 대한 인식이 더욱 필요해지는 이유이다.

*자료 제공=팜파스 출판사

■ '나침반 36.5도' 해당 페이지 안내  

*에듀진 기사 URL: http://www.edujin.co.kr/news/articleView.html?idxno=35941
기사 이동 시 본 기사 URL을 반드시 기재해 주시기 바랍니다. 

- 이 기사는 '나침반 36.5도' [인문 다이제스트]에 실린 내용의 일부입니다. 
경쟁력 있는 나만의 학생부 만드는 비법이 매달 손안에 들어온다면? 학종 인재로 가는 길잡이 나침반 36.5도와 함께라면 가능합니다. 매달 선명해지는 대입로드를 직접 확인하세요! 

차별화된 콘텐츠 중·고등학생 필독서 '나침반 36.5도' 구독 신청 [배너 클릭!]
차별화된 콘텐츠 중·고등학생 필독서 '나침반 36.5도' 구독 신청 [배너 클릭!]

 

저작권자 © 에듀진 인터넷 교육신문 무단전재 및 재배포 금지