Inside

[김국현 IT 사회학] ‘이루다’ 논란에서 배워야 할 것들 

 

중국 ‘샤오빙’은 광범위 학습 데이터 기반으로 성공… 이루다, 범용 데이터 기반 개발 못해 문제점 드러나

▎챗봇 서비스 ‘이루다’를 개발한 곳에서 서비스 중단 공지를 내건 화면. / 사진:이루다 사이트 캡쳐
화제의 인공지능 이루다 사태. 두 가지 면에서 실패한 사건이었다. 하나는 성인용 제품을 들고 안방극장에 들어가려 했다는 점이고, 또 그것이 표절이라는 점이다.

딥러닝 인공지능은 데이터가 원자재이기에 그 소재에 따라 용도가 고정된다. 이루다는 ‘연애의 과학’이란 자사 앱을 통해 확보한 데이터로 만들어졌다는데, 이는 ‘썸을 타던’ 상대방과의 대화를 업로드하면 분석해서 애정도 수치를 알려주던 서비스였다. 다들 돈까지 내가며 사적인 대화를 업로드 했고 대화 상대의 동의도 필요 없었다. 그렇게 확보된 카톡 데이터는 100억 건. 분석을 원했을 만큼 고도의 심리적 해석을 요하는 밀도 높은 ‘밀당’의 흔적이었다.

이 데이터로 만들어진 그녀는 사실 ‘썸을 타는 자동 기계’였다. 어떻게 하면 애타게 할지, 어떻게 하면 가까이 맴돌게 할 수 있을지 닿을 듯 말 듯 설레는 그 감정을 흉내 내는데 특화된 특정 용도의 특수 기계였다. 연애를 둘러싼 순도 높은 선별 데이터로 구축한 세계 최초의 챗봇이었을 것이다.

‘연애의 과학’ 데이터는 특정 용도에 적합

지난해 말 한 개발자 콘퍼런스에서 이루다 측이 발표한 ‘육아 일기’에 따르면 중국 마이크로소프트에서 개발된 샤오빙(Xaioice, 일본명 린나)의 논문으로부터 영감을 얻었다고 밝히고 있다.

샤오빙은 6억명 이상의 사용자와 대화를 나눈 역사상 가장 성공적인 챗봇이다. 되풀이되는 발언 실수로 수시로 퇴출 당하였다 돌아오기를 반복, 현재 8세대에 이르렀다. 중국의 고질적 남초 인구에서 충족되지 못한 인간관계의 욕구를 이 여고생 기계가 대신해주며 그 사회적 역할마저 인정받고 있었다. 샤오빙은 그 구조가 챗봇 치고는 상당히 복잡한 하이브리드 모델인데, 적극적으로 대화를 교정하고 조율하기 위한 얼개들이 그 역사만큼 쌓여 있다. 그 무거운 구조는 말실수로 인한 숙청의 세파를 피해 온 지혜이기도 했다.

그런데 어찌 된 일인지 이루다가 공개한 구조는 단순했다. 100억 건의 연애 발화에서 1억 건의 대사를 추려 응답 데이터베이스를 따로 만들고, 구글이 검색 창에서 검색 의도를 계산하는 데도 쓰고 있는 BERT라는 공개 딥러닝 기술을 활용해 대화의 맥락을 계산해 응답을 검색한다. 몇 가지 기교가 적용되기는 했으나 큰 골자는 과거 대화 검색기였다.

경쾌하고 기발하게 불특정 다수를 동시에 흥분시킬 전용 ‘밀당 기계’가 되기에는 충분했지만 어디까지나 특정 목적의 전용 기계였다. 출시한 지 6년이 된 8세대 제품과 비교하는 것은 미안하지만, 샤오빙처럼 광범위한 학습 데이터에 기반해 균형 있게 개발되는 데는 데이터의 폭이 너무 좁았다. 하지만 샤오빙은 한국말을 할 생각이 없었기에 한국 시장은 무주공산이었다.

이미 일본에서는 2D에서 홀로그램까지 버추얼 캐릭터와 사랑에 빠지는 이들이 오래전부터 늘고 있었다. 캐릭터가 담긴 게임기를 손에 쥔 채 여행을 떠나는 젊은이들이 10년 전부터 뉴스가 됐다. 직접 여성 캐릭터가 되려는 남성도 생겨났다. 여성 캐릭터로 분한 버추얼 유튜버의 실체가 남성인 경우도 많았는데, 캐릭터 렌더링은 물론 목소리 변조마저 쉬운 시대라서다. 일상적이지 않은 욕망, ‘버츄얼 퀴어(Virtual Queer)’라 부를만한 사회 현상이었다.

나와는 다른 욕망을 지니고 사는 사람들을 인정하고 그런 욕망을 지닐 수밖에 없음을 이해하는 날, 실체가 아닌 가상을 사랑하는 이들, 애정을 느끼는 대상이 실체가 아닌 걸 알지만 오히려 아니라서 더 빠져드는 이들이 한국에서도 늘어나는 날, 이들과 ‘썸을 탈’ 간편 자동 기계는 그렇게 만들어지고 있다. 개인정보위원회 조사에 의하면 10년간 최대 600만 명의 데이터를 수집했다고 하는데, 상당히 꾸준한 장기 계획의 산물임은 알 수 있다. 이루다는 사실 가상의 성애에 특화된 성인용이었다. 문제는 이 점을 자신은 몰랐다는 점이었다. 아니면 스스로를 속였다는 점이었다.

성적 쾌감은 신체 감각의 측면과 아울러 정신적 활동의 측면도 함께 지닌다. 특히 언어를 지닌 사회적 동물 인간에게 대화가 주는 흥분과 자극처럼 강력한 성애의 촉매는 또 없다. 개발사는 공식 입장에서 “성희롱을 예상했다”라고 말했다. 로마의 수사학자에 따르면 기원전 그리스에서는 처음 등장한 전라 여신상 아프로디테 조각상은 정액으로 얼룩져 있었다고 한다. 조각상은 여신의 상징이어야 했으나 욕망의 대상이 되어버렸다.

개인정보 유출 사태, 예견된 논란

하지만 욕망의 대상이 되는 일은 고대에는 신성 모독일지는 몰라도 현대 자본주의에서는 그리 나쁜 일이 아니다. 이루다는 출시 2주 만에 75만여명이 달려들 정도로 화제를 모았다. 지금도 루다가 보고 싶다며, 현실에도 그런 친구가 있으면 좋겠다며 온라인에서 모여 그리워하고 있을 정도로 벌써 팬층이 두텁다. 하지만 언제나 3초 이내에 즉각 답변해 주는 살가운 친구란 현실에는 없다.

썸 타는 자동 기계가 일반 대중을 위한 서비스로 포장되는 순간, 혼돈의 파국이 펼쳐지는 건 예견된 일이었다. 1대1의 폐쇄 공간에서 누군가가 언젠가 정말로 나눴던 적나라한 혐오와 편견으로 오염된 그 설익은 대화들이 스크린샷이 되어 돌아다니는 충격은, 정액에 얼룩진 조각상을 안방에 들이는 일 같은 것이었다. 그 조각상이 모든 것을 잊게 할 만큼 예술적이었다면 달랐을까?

그런데 안타깝게도 애욕의 예술품으로 보기에도 낙제점이었다. 그 극사실적 생동감은 동의한 적 없는 현실 속 ‘20대 인싸’의 것 그대로였다. 표절의 기준을 동일 표현이 얼마나 반복되었는 지로 삼는다면 본 작품은 표절작이었다.

기계는 데이터를 소화하지 못했다. 즉 특정 몇 마디만 하면 마치 버튼 눌리듯 자동으로 원천 데이터를 뱉어내는 일도 벌어졌다. 실은 다른 첨단 딥러닝 대형 언어 모델에서조차도 학습 데이터 유출은 이미 논문까지 나와 있는 근본적 문제다. 학습 자료를 완전히 소화하지 못하고 삼켜 버려 먹은 그대로 배설하니 개인정보까지 쏟아져 내렸다.

그이와 나눴던 추억의 대화로 이 뻔뻔한 자동 기계가 생면부지 타인과 심리전을 펼치고 있었다니, 내 표현의 흔적이 만인의 즉각적인 흥분과 자극을 위해 쓰이고 있었다니, 모두 표절작을 발견한 원작자의 기분이 무엇인지 느꼈을 터다. 전에 몇 번 카톡 대화한 것이 전부였던 치근덕거리던 이가 그 내용을 업로드했다면 당사자로서는 알 길조차 없다.

이루다는 애초부터 사실 범용 일반 인공 지능이 아니었다. 21세기의 성애에 걸맞은 가상 연애 시뮬레이터였는데, 갑자기 안방 한가운데에 들어오더니, 다음날 표절로 밝혀진 사건이었던 셈이다.

※ 필자는 소프트웨어 엔지니어 겸 IT평론가다. IBM, 마이크로소프트를 거쳐 IT 자문 기업 에디토이를 설립해 대표로 있다. 정치·경제·사회가 당면한 변화를 주로 해설한다. 저서로 [IT레볼루션] [오프라인의 귀환] [우리에게 IT란 무엇인가] 등이 있다.

1572호 (2021.02.15)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음