Focus

[1997년을 기억하는 스무 가지 방식(13) 거대 지향] 거창하지만 실속 없는 프로젝트 쏟아져 

 

백우진 한화투자증권 편집위원 woojinb@hanwha.com
YS, 검증 안 된 핵융합 기술 지원 … MB 때부터 빅데이터 만능론 퍼져

▎일러스트:김회룡 aseokim@joongang.co.kr
“기초과학과 응용과학 분야의 중점 지원 분야로서 우주기술과 함께 제어핵융합기술을 개발하겠다.” 김영삼 대통령(YS)은 1995년 7월 미국을 방문한 시기에 이같이 발표했다. 이른바 ‘깜짝쇼’를 즐긴 YS가 내놓은 과학기술계 깜짝 정책이었다. 이 선언과 함께 ‘차세대 초전도 핵융합 연구개발(KSTAR)’ 사업이 시작됐다. 한 관계자는 “많은 전문가가 이론적·공학적·경제성의 측면에서 아직 너무 불투명한 점이 많다는 것을 지적하면서 반대했었다”고 말한 바 있다. 그는 온라인 매체 프레시안에 “세계 산업계가 거의 핵융합에 관심을 기울이고 있지 않는 것 자체가, 이 기술의 현실적인 응용가능성이나 경제성이 희박하다는 증거”라고 말했다(프레시안, 2500억원 연구개발사업 도마위에 올라, 2003년 12월 27일).

핵융합 프로젝트는 김영삼 정부보다 40여년 앞서 1951년에 미국과 소련이 거의 동시에 시작했다. 그러나 겹겹 난관에 가로막혀 70년 가까이 지난 현재에도 성공이 보이지 않는 상태다. 과학저술가 강양구씨는 핵융합의 미래에 대해 비관적이다. 그는 지난 7월 글에서 “최소한 수십 년 안에 핵융합에너지가 세상을 구원할 것이라고 믿는 일은 몽상에 가깝다”며 다음과 같이 주장했다.

“핵 융합에너지가 세상 구원한다는 믿음은 몽상”

난관 중 하나는 수소 원자를 융합하려면 밀폐 공간에 수소를 넣고 10억도가 넘는 온도를 가해야 한다는 것이다. 현재 과학자들은 1억도까지 온도를 높이는 기술을 개발했고, 2억~3억도를 목표로 노력 중이다. 온도를 그렇게 높일 수 있더라도 그 온도에 견디는 밀폐용기를 만들어야 한다. 대안으로 수소를 플라즈마 상태로 만들어 도넛 모양의 밀폐공간 속에서 벽에 닿지 않은 채 돌도록 한다는 방법이 제시됐다. 그러나 도넛 안을 도는 플라즈마는 통제하기 어려워 밖으로 새는 등 문제가 많다. 10억도보다 낮은 2억도 정도에서 핵융합 반응을 일으킬 수는 있지만, 거기에는 삼중수소가 필요하다. 삼중수소는 1g에 약 3만 달러가 들어 비싼 데다 방사성 물질이다.

김영삼 정부 시절 핵융합 사업처럼, 최소한의 검증 과정도 거치지 않은 채 채택되고 추진되는 전철이 이후 정부의 다른 프로젝트에서도 답습되고 있다. 빅데이터의 사례를 통해 이를 살펴보자. 핵융합과 빅데이터는 해외에서 진행되는 거창한 무언가를 비판적 검토 없이 수용해 추진한 사례들이다. 이 두 사례는 해외에서 일어난 거창해 보이는 유행을 따라하기보다는 기초과학기술을 탄탄히 다지면서 응용하는 편이 낫다는 측면에서도 교훈으로 삼아야 한다.

이명박 대통령(MB)은 2011년 11월 7일 “위원회가 빅데이터라는 화두를 던져줬는데 이를 실천하는 것이 필요하다”며 “그래야 다른 나라에 앞설 수 있으며 조속히 실천에 옮겨 효과가 나오도록 하자”고 말했다. MB가 말한 위원회는 제3차 국가정보화전략위원회였다. 이각범 위원장은 MB가 참석한 보고 회의에서 빅데이터를 가장 주목해야 할 개념으로 제시했다.

김동환 중앙대 교수는 이날을 “우리나라 빅데이터의 생일과도 같은 날”이라며 “이날 이후 빅데이터 만능론이 우리나라 지식인 사회에 퍼지기 시작했다”고 말했다. 김 교수는 책 [빅데이터는 거품이다]에서 빅데이터가 ‘갑작스럽게’ 국가의 주요 정책으로 선언됐는데도 정보기술(IT) 전문가들은 빠르게 적응하기 시작했다고 전했다. 그는 “그래야 프로젝트를 따낼 수 있었으며, 그래야 청와대 정책보고를 할 수 있었고, 그래야 새로운 조직을 만들 수 있었기 때문”이라고 설명했다.

빅데이터란 무엇인가. 기존 데이터는 규모가 작고 개별 자료가 규격에 맞춰져 있다. 예컨대 신용카드 결제 정보는 언제, 어디서, 얼마를 무엇에 썼는지 정리된 ‘정형 데이터’다. 이에 비해 빅데이터는 정형이 없고 문자·음성·영상 등 형태가 다양하며 대량이다. 소셜미디어를 통한 메시지와 정보, 사진, 영상이 그런 빅데이터다. 인터넷에서 누가 무엇에 관심을 나타내고 찾아 봤는지도 빅데이터에 포함된다.

빅데이터로 성과를 봤거나 성과를 냈다는 사례는 정치·경제·사회 등 여러 분야에 걸쳐 있지만 몇 가지에 불과하다. 사례를 열거하면 다음과 같다. 2012년 미국 대통령 선거에서 버락 오바마 후보 진영은 빅데이터를 분석해 유권자를 다섯 가지 성향으로 나누고 자기편을 지지할 가능성이 있는 대상을 설득하는데 주력했다. 통계를 분석해보니 스포츠경기가 치러진 이후 경기장 주변 지역에서 범죄가 증가하는 것으로 나타났다. 범죄를 저지른 적이 있는 사람을 분석해 재범률이 낮은 그룹과 높은 그룹으로 나눌 수 있다. 영상 스트리밍 업체 넷플릭스는 기존 영화감상 빅데이터를 분석해 누가 어느 영화를 좋아할지 예상하고 그에 따라 작품을 추천한다. 유통업체 테스코는 개별 고객이 어느 품목을 구매할 가능성이 있는지 예상하고 할인쿠폰을 이에 맞춰 발행했는데, 그 결과 할인쿠폰 사용률이 전보다 3.6배로 높아졌다. 다른 유통업체 타깃은 빅데이터로 여성 고객의 임신 여부를 더 잘 예측하게 됐고, 이를 마케팅에 활용하게 됐다. 허리케인이 다가오는 시점에는 맥주가 많이 팔리는 것으로 나타났다.

구글 논문 탓에 빅데이터의 잠재력 과장


▎사진:ⓒgetty images bank
이처럼 빅데이터는 사람이 모르는 일을 뽑아내는 원천이지만, 빅데이터의 잠재력은 과장됐고 오해됐다. 그 과장과 오해에 큰 계기가 된 게 구글의 논문이다. 구글과 질병관리본부(CDC) 연구자들이 공동으로 작업한 논문이 2009년 2월 과학 저널 [네이처]에 실렸다. 이 논문은 구글이 실제 독감의 발생을 예측했다고 잘못 알려졌다. 논문의 제목은 ‘검색어 데이터를 활용한 독감 확산 추산(Detecting influenza epidemics using search engine query data)’이었다. 김 교수는 이 논문은 “이미 발생한 독감 환자들의 대화를 진단해 독감이 어느 정도 퍼져 있는지를 ‘추산’하는 내용”이라고 설명했다. 과거의 데이터로 미래에 독감이 얼마나 발생하고 퍼질 것인지 예측하는 게 아니라는 말이다.

데이터 전문가들은 빅데이터가 만능이 아니라는 점을 강조한다. 데이터 마이닝 전문가 에릭 시겔은 책 [빅데이터 다음 단계는 예측 분석이다]에서 “빅데이터는 여러 골프채 중 하나로, 점점 더 활용도가 높아지는 채 정도로 생각하면 된다”고 비유했다. 그는 빅데이터로 향후 주가의 움직임을 예측하는 시도가 실패한 사례를 들려주며 “빅데이터를 통해 트렌드를 포착하는 능력을 키울 수 있을지는 몰라도 일관되고 정확하게 미래를 예측할 수 있는 건 아니다”라고 경고했다. 예측을 벗어나는 외생 변수가 많고 돌발 외생변수가 등장하며, 사람이 상호작용하면서 결과가 나오는 금융시장과 거시경제 같은 영역의 변수는 빅데이터를 돌려도 미리 알 수 없다. 날씨와 지진도 정확한 예측의 대상이 아니어서, 어느 정도 예상할 수는 있지만 늘 딱딱 맞히기는 불가능하다.

문재인 정부도 빅데이터를 국정과제로 채택

이와 같은 빅데이터의 활용 가능성과 한계를 염두에 두고 한국 정부와 민간의 빅데이터 사업을 일별해보자. MB 주재 국가정보화전략위원회에 앞서 이각범 위원장은 ‘빅데이터를 활용한 스마트 정부 구현(안)’ 보고서를 제출했다. 이 보고서는 미국 대통령 과학기술자문위원회가 2010년 12월에 펴낸 보고서 ‘디지털 미래 설계(Designing a Digital Future)’에서 연방정부의 빅데이터 전략 수립 필요성을 강조한 점을 근거로 제시했다. 미국이 중요하다며 추진하니 우리도 따라 한다는 식이었다. MB 정부는 빅데이터 활용을 통해 “예산 절감, 대내외 변화에 대한 신속한 대처, 삶의 질과 정부 신뢰도 향상이 가능하다”고 주장하면서 “공공 분야 빅데이터 활용시 경제 효과 10조 7000억원 이상”이라고 제시했다. 다른 경제 효과처럼 이 계산에는 뚜렷한 근거가 없었다. 이후 관계 부처는 2012년에 ‘스마트 국가 구현을 위한 빅데이터 마스터플랜’을 수립했다. 이 마스터플랜은 2016년까지 빅데이터 사업에 약 5000억원을 투자해 2017년 이후의 3단계에는 국가 전반의 빅데이터 활용 및 기술 수준을 고도화할 것이라고 장담했다.

어긋난 정책도 관성을 유지한다. 박근혜 정부도 MB의 빅데이터 정책을 이어받았다. 박근혜 대통령은 2016년 4월 제1차 과학기술전략회의를 주재하고 “기존의 추격형 연구·개발(R&D)은 낡은 방식인 만큼 국가 R&D 시스템의 근본적이 개혁이 필요하다”고 말했다. 미래창조과학부는 이 말에 호응해 2017년 정부 R&D 예산을 사물인터넷(IoT)·빅데이터·인공지능에 집중 투자한다는 계획을 발표했다.

빅데이터는 문재인 정부의 100대 국정과제에도 자리를 잡았다. 행정자치부는 ‘열린 혁신 정부, 서비스하는 행정’ 과제 중 하나로 ‘전자정부에 인공지능·빅데이터 등 4차 산업혁명 기술을 접목해 지능형 정부로 발돋움한다’는 계획을 내놓았다. 행정정보 빅데이터와 관련해 “범정부 데이터 관리체계를 구축하고, 공공 빅데이터센터를 설치하는 등 데이터 기반의 스마트한 정부 행정을 구현한다”고 밝혔다. 또 “공공 데이터를 발굴해 민간에 적극 개방하고, 민간 데이터와의 융합 및 데이터 강소기업 창업을 지원한다”는 방안을 내놓았다.

문재인 정부의 정책은 이제 착수되는 중이고 박근혜 정부의 정책은 추진 단계라서 평가가 이르다. 그러나 MB 정부의 빅데이터 정책은 평가할 수 있다. MB 정부의 계획에 따르면 3단계인 현재는 국가 전반의 빅데이터 활용 및 기술 수준이 고도화됐어야 한다. 이와 관련해 MB 정부가 뽑아낸 16개 과제 중 우선 추진하기로 한 세 가지를 놓고 생각해보자. 그 세 가지 우선 추진 과제는 범죄발생 장소 및 시간 예측을 통한 범죄발생 최소화, 예측 기반의 자연재해 조기 감지 대응, 주민 참여형 교통사고 감소체계 구축이다.

이 중 ‘자연재해 조기 감지’는 앞서 말한 것처럼 빅데이터를 투입해도 정확성이 높아지지 않는다. 범죄 장소·시간 예측 시스템도 효과를 볼 만큼 정교해지기란 불가능하다. 주민이 교통 시스템과 관련해 내는 의견을 반영해 사고를 줄인다는 접근은 빅데이터와 무관하다.

민간에서도 빅데이터를 과신한 프로젝트가 추진됐다. 국내 증권업무 전산화·시스템 개발회사인 코스콤은 빅데이터를 활용한 주가 예측 모델 개발에 나섰다. 코스콤은 2013년 1월 이 프로젝트에 착수해, 소셜미디어와 증권사 게시판의 게시물·뉴스 등 다양한 데이터를 키워드 1000여개로 분석해 이를 지수화한 ‘K-인덱스’를 개발했다. 코스콤은 그해 12월부터 두 달동안 K-인덱스를 활용한 주가 예측 서비스를 한 증권사에 시범적으로 제공했다. 테스트해본 결과 코스피 200 지수의 상승과 하락을 맞히는 예측 성공률이 60% 수준을 기록했다고 코스콤은 밝혔다. 코스콤은 당초 이르면 2014년 10월부터 이 모델을 증권사·자산운용사·선물회사 등에 제공할 예정이었지만 약 3년이 지난 지금도 서비스 개시 소식은 들리지 않는다. 코스콤은 대신 빅데이터를 활용해 시장 참여자들의 관심 종목을 보여주는 ‘종목 랭킹 톱10’ 시비스를 IBK증권을 통해 7월 말부터 제공하고 있다. 그러나 이는 그야말로 ‘관심이 많음’만 알려줄 뿐, 부가가치가 전혀 없는 서비스다.

빅데이터 한계 알아야 제대로 활용

한편 빅데이터 유행이 시들해지면서 스몰데이터가 다시 조명되고 있다. 스몰데이터는 소비자를 비롯한 조사 대상자를 직접 만나 심층 인터뷰를 하고 관련된 사항을 관찰해서 얻는 비정형 자료를 뜻한다. 스몰데이터는 제품·서비스 개발 및 개선 아이디어를 얻는 데 도움이 된다.

스몰데이터는 ‘혁신은 시장조사로 이루어지지 않는다’는 스티브 잡스의 말과 일맥상통한다. 어떤 신제품이 필요한지 미리 뚜렷하게 알아차리는 고객은 거의 없다. 대다수 고객은 출시된 신제품을 보고 자신의 욕망을 발견하게 된다. 그러나 스몰데이터가 쓸모가 있다는 사실을 들어 빅데이터가 무용하다고 강조하는 것은 적절하지 않다. 스몰데이터와 빅데이터는 원래 용도가 다른 도구이기 때문이다. 드라이버가 유용하다고 해서 망치가 무용해지는 것은 아니라고 비유할 수 있다.

김동환 교수는 빅데이터의 본질에 충실하면 된다며 성공적인 프로젝트를 다음과 같이 들었다. 서울시는 2013년 KT 고객의 통화 기지국 위치와 청구자 주소라는 빅데이터를 활용해 심야버스 운행노선을 결정했다. 보건복지부는 2016년에 10개 기관에서 수집한 19종의 정보를 빅데이터로 분석해 사각지대에 놓인 복지대상자 1만8318명을 찾아냈다. 빅데이터는 만능이 아니다. 빅데이터는 그 한계를 뚜렷하게 알아야 제대로 부릴 수 있다.

[박스기사] 지적 유행을 악순환시키는 메커니즘 - 정부, 지식인, 천박한 풍토

“빅데이터라는 유행이 5년 넘도록 세차게 부는 원인은 개개인이 아닌 사회 메커니즘에서 찾아야 한다.” 김동환 중앙대 교수는 지난해 10월 써낸 책 [빅데이터는 거품이다]에서 빅데이터 유행이 왜곡되고 과열됐다며 이를 조장한 우리 사회의 메커니즘을 비판했다. 이 메커니즘은 빅데이터 외에 우리 사회를 사로잡는 다른 아이디어에서도 통하는 것으로 보인다.

김 교수는 지적 유행이 확산되는 전제 조건으로 세 가지를 들었다. 여유 자원, 이 자원을 분배하는 제도, 열악한 지적 풍토다. 여유 자원은 대개 정부의 예산이다. 정부는 제도를 만들어 유행에 참여하는 지식인들에게 여유 자원을 할당한다. 김 교수는 “천박한 지적 풍토가 조성되어 있을 때 지적 유행은 비로소 꽃피게 된다”고 말한다. 그는 천박한 지적 풍토로 ‘돈을 바라보고 유행을 좇아가는 사람들을 스마트하다고 치켜세워주는 풍토’ ‘지적 유행에 편승하는 것을 자랑스러워하는 풍토’ 등을 들었다.

지적 유행의 주체는 지식인, 정부, 관련 업체다. 빅데이터의 경우 ‘빅데이터 옹호자’들이 미국의 유행을 수입해왔다. 이들이 빅데이터 연구의 필요성을 부각하자 정부는 프로젝트를 발주했다. 그러면 업체들이 들어와 공무원들에게 향후 가능한 성과를 보여준다. 공무원들은 더 많은 예산을 배정받아 풀면서 시장을 키운다. 시장이 커지면서 더 많은 지식인이 빅데이터 전문가로 변신한다. 김 교수는 “이러한 양의 피드백 루프는 빅데이터 옹호자들에게는 선순환으로 여겨지겠지만, 사회 전체의 입장에서 보면 악순환”이라고 비판했다. 그는 “이러한 ‘자가 증식’을 견제할 수 있는 비판적 지식인이 존재하지 않는다면, 이 악순환은 고삐 풀린 암세포처럼 순식간에 사회 전체로 번져나간다”고 경고했다.

1397호 (2017.08.21)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음