[데이터 3법의 겉과 속] 당신의 정보는 당신을 위해 쓰이지 않는다

기업이 개인의 행동 패턴 분석… 빅데이터로 우량고객·불량인간으로 구분해

▎데이터 3법 중 하나인 ‘신용정보의 이용 및 보호에 관한 법률 일부 개정안’이 지난 9일 찬성 114표로 국회 본회의를 통과했다. / 사진:연합뉴스

데이터 3법 개정안이 지난 1월 9일 국회 본회의를 통과했다. ‘개인정보 보호법’, ‘정보통신망 이용촉진 및 정보보호 등에 관한 법률(정보통신망법)’, ’신용정보의 이용 및 보호에 관한 법률(신용정보법)’로 구성된 데이터 3법 개정의 주된 내용은 개인정보를 보호하기 위한 거버넌스 체계의 일신이다.

지금껏 한국에는 개인정보 감독기구조차 없었고 무엇이 개인정보인지조차 모호하게 방치돼왔다. 그런 탓에 유럽연합의 개인정보보호지침(GDPR) 적정성 평가의 필수 조건에도 부합하지 못해 글로벌 경제에 편입하는데도 애로가 있었다. 업계는 데이터 3법 개정안 통과에 일제히 환영의 뜻을 밝혔다. 역시 데이터는 21세기의 석유, 알고리즘의 원료였다.

데이터는 21세기 석유지만 가연성 연료

그런데 사실 이번 개정에서 이런 개인정보 보호체계의 일원화 및 명확화는 부수적인 것이었다. 업계가 환영한 이유는 개인정보와 익명정보 사이에 가명정보라는 신개념을 도입한 일 때문이었다. 가명정보는 개인정보로 되돌릴 수 없는 익명정보와는 달리 이름 등만 가린 사실상 개인정보다.

여기에는 두 가지 의미가 있다. 하나는 가명정보라면 동의 없이도 활용할 수 있게 해줬다는 점이고, 또 하나는 익명정보를 법에서 면책해줬다는 점이다. 이 정도면 기업으로서는 그간 법이 무서워서 해보지 못 했던 많은 일을 할 수 있게 된다. 그간 산업계는 연료 부족으로 아사 직전에 있다며 신음해 왔는데 이번 개정으로 숨통이 트일 듯하다. 이미 각 선진국에서는 여러 기업이 모여 익명 가공된 개인 데이터를 함께 활용하는 일이 일상화되고 있다.

하지만 이 가연성 연료가 얼마나 위험한 지도 동시에 알고 있다. 그들도 아마 알고 싶지는 않았을 것이다. 대개는 사건 사고를 통해 깨닫게 되니 말이다.

일본 최대 취업정보업체 리크루트는 취업준비생들이 사이트를 이용하며 축적한 정보를 재가공하면 흥미로운 인사이트가 도출될 수 있음을 깨달았다. 각 준비생이 어디에 지원서를 냈는지 동향, 어떤 기업을 열람했는지의 기록, 그리고 실제 합격 통보 여부 등 여러 데이터를 조합한 후 인공지능으로 분석해, 특정인이 고객 기업 합격 후 입사를 안 할 확률을 계산했다. 이른바 개인별 ‘내정사퇴율’이라는 항목을 만든 것이다. 토요타 등 굴지의 기업들은 고가에 이 정보들을 사갔다. 기업 입장에서는 뽑아도 오지 않을 것 같은 지원자들을 걸러내기 위한 시스템을 사는 비용으로는 나쁘지 않았다. 아니 어쩌면 절실했다. “귀사가 제1지망입니다”라고 누구나 말을 하겠지만, 이 개인 데이터는 그리 말하지 않고 있음을 이제 알 수 있다. 지원자의 속마음을 기업에게 귀띔하는 서비스, 취업정보업체로서는 회심의 일격과도 같은 아이디어라고 환호했을지도 모르며 또 실제로도 잘 팔렸다.

문제가 된 계기는 아예 작년부터 실명을 건넸기 때문이다. 2018년부터 시작한 서비스 초기에는 쿠키(웹사이트 방문 기록)와 ID 등으로 처리했고 이때는 문제조차 되지 않았다. 하지만 그때도 고객 기업은 누구인지 대강 다 알 수 있었다. 당사자의 황당함은 말할 것도 없었다. 데이터가 새자마자 정말 석유와도 같이 불타올랐고, 이 사건은 속칭 ‘리크루트 사태’로까지 번지게 된다.

소비자로서 우리는 내 정보를 제공할 때 그 정보가 나를 위해 쓰일 것이라고 지레짐작하곤 한다. 하지만 내가 기업에 수수료를 특별히 지불하지 않았다면, 기업은 대개 그 정보를 연료로 태워 움직일 수밖에 없다. 그 기업의 에너지는 곧 나인 셈이다. 또 우리는 주민번호처럼 내게 부여된 숫자 같은 속성만을 개인정보라고 생각하는데, 더 중요한 정보는 나의 행동 데이터다. 대개 빅데이터는 이 행동 데이터를 말한다.

마케팅 테크놀로지는 이런 빅데이터를 연료로 삼는 대표적 기술인데 그 목적은 크게 두 가지다. 하나는 새로운 잠재 고객을 찾는 일. 또 하나는 기존 고객 중 호구를 찾는 일이다. 며칠 전 아내가 고심 끝에 가족 휴가용 항공권을 구매한 적이 있다. 여러 사정상 이리저리 들락날락했는데 막상 결제하려고 하니 3만원이 올라있었다. 아무리 생각해도 이상해 내 PC에서 접속해 보니 가격은 오르기 전 그대로였다. 내 계정으로 결제는 했지만 영 찜찜한 일이었다. 분명 살 것 같은 사람에게는 최대한 더 받는 장사의 도는 이처럼 행동 데이터로 자동화될 수 있다.

사실 굴지의 데이터 사업자들에게는 이미 실명이니 가명 정보니 하는 것은 큰 의미가 없다. 여러분의 실명에 애초에 별 관심이 없기 때문이다. 언제 유튜브나 페이스북이 내 실명과 주민번호를 알아서 내 취향에 맞춰준 적이 있나. 내 이름도 주소도 아무것도 몰라도 내가 어떤 사림인지는 알고 있다. 그리고 충분한 동기 부여와 사정이 있다면, 그리고 타기업과의 데이터 결합만 있다면 가명은커녕 익명 정보로부터도 심지어 실명을 도출해낼 수 있다. 다만 하지 않을 뿐이다.

지난해 여름 네이처 학술지에 실린 한 논문은 알고리즘이 나이·성별·결혼 등 15개의 인구통계학적 속성만으로도 익명화된 개인을 99.98% 특정해낼 수 있음을 보여줬다. 하나의 데이터는 힘이 없지만, 여러 데이터가 더해질수록 입체감을 지닌다. 인구통계학적 속성보다 더 강력한 것은 행동 데이터다. 비밀번호와 ID를 입력할 때 타이핑 버릇만 갖고도 원래 주인인지 아닌지 구분해 내는 루마니아의 스타트업 ‘타이핑DNA’는 최근 구글 등으로부터 700만 달러 투자를 받았다.

인간은 절대 느낄 수 없는 미세한 차이를 기계학습으로 무장한 인공지능은 분리해 낼 수 있다. 그리고 그 기계들은 내 실명 따위는 오히려 귀찮아할지도 모른다. 그들 나름대로 내 이름을 붙여 부르고 있을지 모르고, 어쩌면 나와 비슷한 몇 명을 같은 이름으로 부르고 있을 수도 있다. 특정인을 아는 건 중요하지 않다. 오히려 중요한 것은 내가 우량 고객일지 불량 고객일지 예측하는 것이다. 데이터들이 적절히 조합되고 그래서 내가 불량 인간으로 분류되면, 앞으로 나는 온라인 또는 오프라인으로 무슨 일을 하려고 해도 이상하게 잘 안되고 잘 받아들여지지 않을 수 있다. 리크루트의 내정사퇴율처럼 쇼핑몰은 내 속마음을 읽고 대응을 달리할 수도 있다. 갑자기 3만원 오른 가격표를 받아 든 것과는 다른 규모의 황당함일 것이다.

성숙한 사회 여부 판별하는 가늠자 역할

최근 중국에서는 교통위반이나 경범죄가 급감하고 있다고 한다. 바로 2억대 넘게 설치된 CCTV, 그리고 인공지능 덕이다. 온·오프라인 관민 합심으로 신용점수는 곳곳에서 계산되고 있다. 알리바바·텐센트 모두 각각의 신용점수가 있다. 중국 소비자들은 불만 없이 오히려 편하다고 생각하는 듯 중국식 ‘안전감’을 이야기한다. 프라이버시는 이처럼 다른 가치와 교환되기도 한다. 프라이버시란 개인적 자유를 의미한다. 사생활이라기보다 제삼자의 눈치를 보지 않고 수많은 사적인 탐색과 시도를 할 수 있다는 자유에 가깝다. 낯뜨겁고 부끄러운 짓에서 시작될 수 있는 미래가 있기에, 프라이버시가 무너진 사회란 대개 재미없고 그 혁신에도 한계가 있다.

많은 통계적 접근이 그렇듯 데이터 사이언스란 어떤 각도에서 바라보는지에 따라 다른 해석이 가능하고, 얼마든지 의뢰인의 입맛에 맞게 임의 가공도 가능하다. 그만큼 윤리관이 중요한 일인데, 이 가공산업에 이제 우리의 프라이버시도 더해지게 됐다. 한국도 드디어 뭐든 해볼 수 있게 됐다. 잘못됐을 때 어떤 역풍이 불지, 무슨 책임을 질지가 성숙한 사회 여부를 판별하는 가늠자가 될 것이다. 이번 사후 규제안을 보면 개인정보를 불법적 활용하면 총매출의 3%를 과징금으로 부과할 수 있다고 하는데 이는 약하다. 총매출 30% 정도는 돼야 자유의 대가에 대해 심사숙고하지 않을까 싶다.

- 김국현 IT칼럼니스트(에디토이 대표)

Inside

[데이터 3법의 겉과 속] 당신의 정보는 당신을 위해 쓰이지 않는다

고객센터