특종.심층취재

Home>월간중앙>특종.심층취재

[집중분석] B급 여론조사에 굴절된 한국사회의 자화상 

고급 데이터는 잠자고 싸구려 통계만 판친다 

박성현 기자 park.sunghyun@joongang.co.kr
시장 비중이 가장 큰 공공부문의 원자료(raw data) 일반에 전면 공개해야 정확한 자료의 생산 못지 않게 공유·확산이 부가가치 창출의 지름길

4·13 총선에 임박해 국내의 일부 여론조사 전문기관들은 혼란에 빠졌다. 비례대표를 뽑는 정당득표율 여론조사에서 더불어민주당(이하 더민주)과 국민의당이 일제히 약진한 까닭이다. 특히 수도권에서 23%에 머물던 더민주가 30~32%까지 수직 상승했다. 더민주의 약진은 부산에서도 눈부셨다. 허진재 한국갤럽 이사는 “선거일에 다가서면서 수도권과 부산에서 야당으로의 표쏠림 현상이 역력했다”면서 “총선의 흐름이 완전히 바뀌는 것이라 우리도 이게 뭔가 의아해 했다”고 토로했다. 한국갤럽, 한국리서치 등 여론조사기관이 새누리당 160석, 더민주 90석, 국민의당 30석 안팎을 예측한 터라 선거 막판에 나타난 야당 정당득표율의 출렁임은 믿기지 않는 현상이었다.

선거 결과는 더 의외였다. 더민주가 123석으로 1당에 올라서고 새누리당은 122석으로 오그라들었다. 국민의당과 정의당은 각각 38석, 6석을 차지했고, 무소속도 11석에 달했다.

여론조사기관들의 반응은 한마디로 “맙소사”였다. 새누리당의 몰락은 물론이고 제 1당을 맞히는 데도 실패한 것이다. 한국갤럽의 장덕현 부장은 “여론조사 공표 금지기간 직전에 실시한 여론조사의 평균치를 감안해도 새누리당의 압승을 예상할 수밖에 없었다”고 돌이켰다. 각 여론조사가 발표한 690여 개의 조사에서 새누리당이 10% 포인트 이상 우세한 지역이 97곳, 더민주는 10곳 정도였다. 나머지 경합지역을 절반씩 나눠 갖는다고 가정하면 새누리당이 160석 이상 얻으리라는 결론에 이르렀다는 것이다.

이런 오판을 야기한 여론조사 중 상당수 응답률이 5% 미만이고, 20~30대 등 젊은층에서 연령별 할당량을 채우지 못해 가중치를 과도하게 부여했다고 여론조사기관들은 분석했다. 심재웅 한국리서치 전무는 “20대, 30대는 물론이고 50~60대의 표심을 읽는데 실패했다”면서 “표본 추출도 문제였지만 민심 변화를 이끌어온 이슈들을 제대로 잡아내지 못한 것도 패착”이라고 업계의 분위기를 전했다.


▎4·13총선에서 여론조사기관의 예측이 크게 빗나가면서 조사방법론의 개선 방안이 논의된다.
한국갤럽은 정당득표율에서 여실히 드러나던 수도권과 부산의 야당 표쏠림 현상을 지역구(수도권 122석, 부산 18석)에서는 확인할 길이 없었다. 개별 선거구별로 여론조사를 직접 해볼 수도 없는 노릇인데다 여론조사 공표금지기간(선거일 전 6일) 동안 다른 조사기관의 결과도 접하기 어려운 탓이다. 허진재 이사는 “개표 결과 더민주가 새누리당에 5% 이내에서 앞선 지역이 30곳”이라며 “접전지역의 표심을 선거 일주일전에 진단하기란 불가능에 가깝다”며 고개를 저었다.

20대 총선 여론조사 참사는 어떻게 보면 언론사 내부의 전문성 결여도 한몫했다고 할 수 있다. 여론조사 전문기자를 두지 않는 언론사가 많은 현실과도 결부된다는 것이다. 데이터를 분석하고 검증하는 능력이 떨어질수록 여론조사기관이 주는 자료에 의존해서 기사를 쓰게 된다. 정한울 고려대 평화와민주주의연구소 연구교수는 “콘텐트를 필터링할 역량이 떨어질수록 여론조사기관에 의존하게 마련이며, 저렴한 비용을 선호하는 상업주의적 관점까지 가세해 지난 총선 여론조사가 춤을 추었다”고 진단했다.

총선 예측 오류, 여론 왜곡 상황 점검의 계기돼야


▎4·13총선 당일 공중파 방송 3사의 출구조사원들이 유권자들을 상대로 출구조사를 하고 있다.
엉터리 여론조사를 방지하려는 다각도의 방안이 논의되는 건 당연한 수순이다. 중앙선관위의 ‘20대 총선 여론조사 통계’에 따르면 이번 총선을 앞두고 공개된 여론조사는 1744건에 달했다. 이중 조사의 품질과 직결되는 평균 응답률은 8.9%였다. 특히 비용이 상대적으로 저렴한 자동응답시스템(ARS)조사의 응답률은 4.2%에 그쳤다. 통계학자들은 적어도 20%의 응답률은 보장돼야 한다는 입장이다. 그래서 여론조사 업체의 자격을 강화하고 난립하는 ARS 업체에 대한 실태조사가 필요하다는 주장이 제기된다. 휴대전화 소유자의 정보를 여론조사기관에 익명(050)으로 제공하는 ‘안심 번호제’를 통해 응답률을 높여야 한다는 데도 의견이 모아진다. 이택수 리얼미터 대표는 “현재 정당 내 경선여론조사에만 허용되는 안심번호 휴대전화 조사를 언론사 여론조사 등 공표·보도되는 모든 여론조사로까지 확대해야 한다”고 입장을 내놓았다. 우상호 더민주 원내대표는 신뢰도가 낮은 여론조사 결과의 공표를 금지하는 쪽으로 선거법 개정을 추진하겠다는 입장을 밝히기도 했다. 이종걸 의원을 비롯한 일부 국회의원은 선거 여론조사를 하는 기관의 자격을 정하는 인증제를 도입해야 한다고 입을 모은다.

20대 총선은 국내 여론조사 방법론을 되돌아보게 하는 중요한 전기를 제공한다. 이 분야에 종사하는 전문가들은 이번 기회를 통해 데이터 생산·관리·유통에 관한 본질적인 문제를 짚어야 한다고 강조한다. 또 선거 외에 공공·사회·경제·문화 분야에서도 조사 기능이 부실해 구조적으로 여론의 굴절이 일어나는 것이 아닌지도 점검 대상이다. 김석호 서울대 사회학과 교수는 “기존의 자료 생산 방식이 사회의 민심과 여론을 정확하게 읽지 못해 왜곡이 발생하는 건 아닌지 연구자들이 성찰해야 한다”며 “데이터를 정확하게 생산하는 것에서 한발 더 나아가 그 데이터를 제대로 공유·확산하는 작업에도 적극적으로 나서야 할 때”라고 말했다. 그는 나아가 “데이터 생산에서부터 공유, 활용에 이르는 과정이 사회 전반의 부가가치를 끌어올리는 공익적 활동으로 이어지도록 하는 공감대 형성이 요구된다”고 덧붙였다.

데이터 생산의 기초가 되는 조사의 품질과 신뢰 문제는 충분히 노출됐고 방법론도 꾸준히 모색돼왔다. 여론조사는 대표성과 임의성을 생명으로 한다. 대표성이란 조사대상의 전 계층을 포괄하는 방법론을 말하고, 임의성은 조사 대상자가 되는 모든 사람이 선택될 확률이 같도록 하는 걸 일컫는다.

이를 위해 여론조사는 보통 유선과 무선을 혼합해서 실시한다. 과거 KT 가구전화부에 주로 의존하던 여론조사업계는 2010년 지방선거에서 예측 결과가 크게 빗나가면서 휴대전화 조사 비중을 높였다. 또 KT 가구전화부에 올라있지 않은 가구가 절반을 넘어서면서 표집틀(sampling frame) 대표성에 문제가 생기자 임의번호걸기(RDD) 방식으로 샘플을 모으는 방식도 동원했다. 이마저도 부족하다고 해서 안심번호를 선거여론조사에 활용하자는 상황에 이르렀다.

내용 잘 모른 채 찬성·반대하는 부실 여론조사


▎20대 국회의원 선거가 치러진 4월 13일 오후 6시 서울역에서 시민들이 방송 3사의 출구조사 결과 발표를 지켜보고 있다.
대표성은 특정 연령·계층·지역에 치우치지 않을수록 뛰어나다. 유선전화의 경우 집에 있을 확률이 상대적으로 높은 노인, 무직자, 주부들이 외부 활동이 많은 젊은층, 직장인, 취업 여성이 보다 더 많이 뽑히게 돼 조사 대상자가 동일한 확률에 놓이지 않게 되는 문제가 있다는 게 노규형 리서치앤리처치 대표의 설명이다.

그래서 동원되는 게 외부 활동 중에도 받을 수 있는 휴대전화 조사다. 나아가 휴대전화 소유자의 주소지를 가늠할 수 있는 안심번호를 통해 응답률을 높이자는 논의가 일고 있다. 안심번호가 만능열쇠는 아니다. 휴대전화가 없거나 잘 쓰지 않는 고령층은 조사에서 배제될 수 있다. 그래서 안심번호를 선거여론조사에 도입하더라도 유선전화와 병행해 활용해야 한다는 의견이 나오는 것이다.

국내 여론조사는 정치 환경에 따라 가볍게 왜곡될 수 있다. 이는 본지가 단독 입수한 아래의 통계조사 결과가 말해준다.

이현우 서강대 정치외교학 교수는 지난해 11월 17개 광역시·도에 거주하는 성인 남녀 1100명으로 대상으로 정치인식에 대한 여론조사를 실시했다. 2015년 10월 행정자치부 주민 등록인구현황에서 성별, 연령별, 지역별 인구 구성비에 따라 무작위로 추출한 1100명을 A그룹(500명), B그룹(6000명)으로 나눠 면접원들이 전화를 걸었다.

A그룹에는 ‘국회선진화법에 대해 어떻게 생각하느냐’는 질문을 던졌다. 국회선진화법에 대한 의견을 묻는 설문이다. 찬성 40.9%, 반대 29.6%, 모름이 29.5%로 조사됐다.

B그룹에는 ‘국회선진화법에 대해 알고 있느냐’고 물었다. 국회선진화법 인지 여부를 묻는 설문이다. 그랬더니 안다가 36.6%, 모르겠다가 63.4%로 나뉘어졌다.

A그룹과 B그룹은 비교대상으로 분류됐을 뿐 무작위로 추출한 표본인지이라 서로 다르게 볼 이유는 없다. 두 그룹 조사 결과를 비교해보면 국회선진화법이 뭔지도 모르면서 찬반을 답하는 이들이 꽤 된다는 분석이 가능하다. 대상에 대한 정확한 정보가 없는 상황에서는 찬반 입장을 정하기 어려움에도 답을 하는 경우가 많다는 말이다.

이렇게 되면 실체를 반영하는 통계를 얻기 어렵다. 응답자들이 처음부터 거짓을 답하기로 작심해서가 아니다. 응답자들은 모르는 내용이라도 소신껏 대답하려는 경향이 있으므로 거짓말을 하지 않도록 하는 장치가 반드시 마련해야 한다는 게 이현우 교수의 결론이다. 그는 “설문지 작성 단계에서 주제를 충분히 알고 있는가를 첫째 항목에 배치해야 한다”고 지적했다. 예를 들면 국회선진화법이 경우 첫 질문에 인지 여부를 묻고 아는 응답자들에게만 찬반을 물어야 한다는 것이다. “여론조사에서 흔히 범하기 쉬운 오류가 처음부터 특정 주제에 대한 찬반을 묻고 들어가는 것인데 이는 조사의 정확도를 떨어뜨리는 주요한 요인이 된다.”

데이터를 자기 정당화 수단으로 활용하려는 유혹


▎성균관대 서베이리서치센터는 2004년 삼성경제연구소와 함께 ‘한국인의 가치지향:국제비교’를 주제로 회의를 열었다.
이런 경향은 법률에 대한 의식조사에서도 더 극명하게 나타났다. 이 교수는 정당은 물론 어디에서도 논의되지도, 현실에 있지도 않은 허구의 ‘농업무역법’에 관한 의견을 두 그룹에게 물었다.

A그룹에는 “여권에서 논의 중인 ‘농업무역법’에 대해 어떻게 생각하느냐’는 문항을 제시했다. 찬성이 34%, 반대가 28.5%, 모름이 37.5%로 나왔다. B그룹에는 ‘여권에서 논의 중인 ‘농업무역법’에 대해 알고 있느냐’로 물었더니 80.1%가 모른다고 응답했고, 알고 있다는 응답자는 19.9%에 그쳤다.

A그룹 농업무역법에 대한 응답 성향을 지지 정당별로 보면 새누리당 지지자의 56%가 찬성한 반면, 당시 제 1야당이던 새정치민주연합 지지자 중에서는 19.2%만이 찬성했다. 반대한 응답자는 새누리당에서 10.7%에 그친 데 반해 새정치민주연합에서는 40%에 달해 대조를 이뤘다. 가공의 농업 무역법에 대해 새누리당이 논의한다는 이유만으로 여당 지지자는 찬성 쪽, 야당 지지자는 반대 쪽에 줄을 선 것이다. 하지만 B그룹 설문이 말해주듯 응답자의 80%는 법 자체를 잘 모르고 있었다. 농업무역법은 존재하지도 않거니와 따라서 여당에서 논의할 수도 없기에 당연한 결과인 셈이다.

국내에서 진행되는 선거 내지 정책 관련 여론조사 대부분이 이런 함정에 빠질 수 있다고 이 교수는 경고한다. 농업무역법의 예에서 보듯이 응답자들이 정당 지지성향에 따라 정책의 찬반 입장을 밝히는 경향 때문에 통계가 현실을 제대로 반영하지 못할 개연성이 존재한다. 게다가 여론조사기관이 응답자가 주제를 충분히 알고 있는지 여부를 묻지 않고서 곧바로 찬반을 묻게 된다면 통계는 한 번 더 왜곡되고 만다. 이런 일은 공공기관이 발주하는 여론조사에서 더 빈번한 나타나는 편이라고 이 교수가 지적했다. “중앙 정부를 비롯해 공공기관은 자신들의 정당성을 확보하고자 여론조사를 실시하는 경우가 많다. 이런 경우 데이터의 왜곡이 심해진다. 이런 유혹을 이겨내야 객관적인 데이터가 생산되고 축적된다.”

같은 맥락에서 정부 정책에 대한 선호를 정확하게 알자면 정당 지지나 이념 성향에 대한 조사를 병행하는 게 타당하다. 하지만 정부 등 공공기관은 통계 자료를 산출하는 여론조사를 시행하면서 대통령 국정 지지율 혹은 정당 지지율 항목을 넣는 걸 꺼려한다고 정한울 고려대 평화와민주주의연구소 연구교수가 말했다. “특정 정책에 대한 찬반이 정책에 대한 선호인지, 정당 혹은 대통령에 대한 선호인지를 가릴 필요가 있다. 하지만 일부 정부 부처는 특정인, 특정 정당의 지지율이 낮게 나오는 걸 우려해서인지 몰라도 그런 설문 문항을 기피하는 경향을 보인다.”

정부의 정책 용역 설문조사는 특히 취약하다고 정 교수는 우려했다. 이런 여론조사는 찬성과 반대 요인을 찾아내 찬성 요인은 강화하고, 반대요인은 해결책을 제시하고자 수행된다고 말할 수 있다. 다시 말해 정책에 대한 응답자 찬반 원인을 찾아 정책 대안을 만들어내는 게 공공기관 여론조사의 주요 목적인 것이다. 하지만 정책을 추진하는 공무원들은 다수가 찬성한다는 통계만 보여주면 그만이라고 생각하는 경향이 짙다는 게 정 연구교수의 진단이다. 그는 “정부 관료들은 각종 데이터를 자기 정당화의 수단으로 활용하려는 마인드에서 벗어나지 못하고 있다”며 다음과 같은 사례를 들었다. “무상복지의 경우만 해도 그렇다. 이 의제를 반대하는 보수와 찬성하는 진보는 각기 우호 여론 확보에 총력을 쏟았다. 여당 지지자는 반대, 야당 지지자는 찬성하는 흐름이 있다. 이런 조건에서도 60%가 찬성하는 조사가 나오면 복지에 대한 수요가 엄연히 존재하게 되고 그에 기초에 정책을 입안해나갈 수 있다. 그러자면 응답자의 정치적 태도까지 고려한 여론 측정이 현실에 근접한 대안을 도출하는 지름길이다.”

정책 실무자라면 누구든지 정책결정권자의 심기를 거스르는 결과는 배제하고 싶어 한다고 이명박 정부 청와대 정무수석실 행정관을 지낸 김장수 박사(정치외교학)가 말했다. “공무원들은 여론조사 설계 단계에서부터 행여 부담으로 돌아올 결과는 처음부터 배제하려 든다”는 게 김 박사의 기억이다. 나아가 관료들은 되도록이면 감추려는 속성이 있다고 그는 지적했다.

사정이 이렇다 보니 멀쩡하게 만들어졌을 공공기관의 데이터조차 의심을 살 수 있다.

국가보훈처는 올 3월 ‘2015 나라사랑 의식지수 조사 보고서’를 발표했다. 이에 따르면 국민 10명 중 7명은 ‘전쟁이 나면 총을 들고 싸우겠다’(72.1%)는 의지를 가지고 있는 것으로 나타났다. ‘싸우겠다’는 응답은 50대에서 83.5%, 60대 이상이 81.5%로 높게 나왔고, 20대(50.7%)와 30대(59.6%)의 참전 의사도 절반을 웃돌았다.

한국종합사회조사와 한국복지패널조사의 모범적 실험


▎(왼쪽) 한국보건사회연구원은 2006년부터 한국복지패널 원자료를 이용한 학술대회를 열어왔다. / (오른쪽) 한국복지패널 홈페이지는 연구자들이 필요로 하는 데이터를 원자료 형태로 제공한다.
이현우 교수는 이 통계가 젊은층의 안보 정서와 어느 정도 일치하는지 확인해보고자 국가보훈처 홈페이지에 올려진 여론조사 관련 보도자료에 들어가봤다. 보도자료가 100쪽에 달했고 한글 파일로 된 통계표도 제공됐지만 전문가 입장에서 진위를 확인해볼 수는 없었다. 적어도 통계를 돌려볼 수 있는 원(原)자료(raw data: 엑셀이나 SPSS 프로그램 등으로 작성된 표 형식의 집합데이터)를 제공해야 가능한데 그 수준에는 이르지 못했던 것이다. 통계프로그램을 아는 연구자가 참여해서 공공기관의 통계를 검증할 수 있어야 그 통계의 신뢰도는 높아지는 법이다.

한국보건사회연구원이 수행하는 ‘한국복지패널조사’는 이런 점에서 모범적이라고 하겠다. 이 연구원은 통계조사에서 산출된 원자료를 연구자들이 통계로 활용하도록 홈페이지에 올려놓고 있다. 나아가 일반 연구자들이 2006년부터 시작된 한국복지패널 원자료를 이용해 작성한 학술논문 경진대회를 열어 시상금을 지급하는 등 데이터 활용을 적극 권장한다. 올해로 9회째를 맞는 ‘한국복지패널 학술대회’는 이미 생산된 자신들의 데이터를 다양한 정책개발에 활용토록하는 사례로 꼽힌다.

성균관대 서베이리서치센터에서 주관하는 ‘한국종합사회조사(KGSS)’ 역시 특기할 만하다. 2004년부터 시작된 한국종합사회조사는 오류가 적은 자료를 만든다는 목표 아래 출발했다. 사회과학 제반의 핵심적 주제들에 대해 ‘방법론적 원칙’을 엄격하게 지키고, ‘주기적’으로 진행해서 시기별 비교·연구까지 가능하도록 하는 조사다. 같은 샘플(예컨대 1500명)을 조사하는 비용이 방법에 따라 천차만별인 이유를 보여준다. 이 조사는 전국적으로 1500명의 샘플을 획득하고자 4억~5억원 정도의 비용을 지출한다고 서울대 박원호 정치학과 교수가 말했다. 다음은 박 교수의 설명이다. “특정 주제가 정해지면 모집단을 정하고 표본을 추출한다. 전국에 골고루 퍼진 표본을 선정하면 조사자들을 보내 설문을 받는다. 이 조사는 표본이 응답할 때까지 10번이고 20번이고 반복해서 찾아간다. 표본이 응답하지 않는다고 해서 다른 데서 표본을 가져오지 않는다는 말이다. 즉 ‘대체’를 하지 않는 게 핵심 포인트다. 일반 여론조사는 표본이 응답하지 않으면 다른 표본으로 대체한다. 그렇게 해서 목표 샘플을 채우는 식이다. 이렇게 대답하는 사람들만 자료에 모이면 부정확한 통계가 쌓이게 된다. 한국종합사회조사는 한번 주어진 표본을 쉽게 포기하지 않음으로써 대표성을 획득한다.” 10년 가까이 된 한국종합사회조사 자료를 토대로 1급 저널에 발표된 논문 수가 700여 편에 이른다고 한다.

이와 달리 선거 여론조사는 통상 할당표집이라고 해서 목표로 정한 표본 크기(가령 1000개)를 충족할 때까지 계속 다른 전화번호를 돌려 표본을 채워간다. 응답률 5%의 여론조사라면 20명에게 전화를 걸어 19명이 거부하고 1명이 조사에 응했다는 것이다. 한국사회과학자료원의 김대훈 자료개발실장은 “이는 조사에 응하는 사람들만 응답하는 맹점이 있다”면서 “표본 대체가 적을 수록 좋은 조사라 할 수 있다”고 평가했다. 20분의 1의 확률로 응답한 사람들을 모은 여론조사는 표본을 대체하지 않는 한국종합사회조사 자료의 품질을 따라올 수가 없다는 말이다.

국가 데이터가 국가 혁신의 원동력이다

그럼에도 여론조사는 공공재이며 선거를 제외하고는 여론을 알 수 있는 유일한 도구다. 박 교수는 “모든 조사에서 수억 원짜리 명품조사를 하는 건 불가능하다”면서도 “부정확하고 편향된 수백만 원짜리 싸구려 여론조사로 주요 정책을 결정하거나 후보 지지율을 보도하는 건 지양돼야 한다”고 권고했다.

통계조사를 하면 자료가 크게 두 가지 형태로 생산된다. 응답자 개개인 답한 설문자료 즉 오리지널 데이터(원자료)가 하나고, 이를 토대로 집계해서 만든 테이블, 이른바 통계표가 또 있다. 예컨대 원자료는 동일인이 문항별로 응답한 ‘개별 자료’이고, 지금 여론조사기관이 공개하는 자료는 이들 개별 자료를 취합해 만든 ‘집합 자료’인 셈이다.

외부의 연구자 입장에서는 응답자들의 개별 자료가 입력된 집합 데이터를 확보하면 다른 변수를 적용해 다각도의 검증과 분석이 가능해진다. 하지만 이미 걸러진 통계표만으로는 새로운 실험을 시도할 여지가 거의 없다. 그래서 선진국일수록 정부 예산으로 생산된 데이터는 원자료 공개를 원칙으로 하는 편이다.

성균관대의 한국종합사회조사는 데이터의 국제 비교까지 가능하다. 2004년부터 실시된 한국종합사회조사는 미국 시카고대에서 1972년부터 주관해온 종합사회조사(GSS, General Social Survey)를 벤치마킹했다. 한국을 포함한 45개 회원국은 GSS의 변수체계를 토대로 연구를 진행하며 ISSP(International Social Survey Program)를 통해 회원국 간의 비교·분석을 한다. 매년 공통변수를 결정하여 각국의 종합사회조사에 반영하는 방식이다. 김대훈 한국사회 과학자료원 자료개발실장은 “원자료 공유가 확산될수록 한국사회가 근거를 갖고 얘기할 수 있는 경험 연구가 한층 더 발전한다”고 강조했다.

자료를 웹사이트에 올린다고 정보 공개 아니다


▎(왼쪽) 서강대 이현우 교수가 실시한 정치인식 여론조사 자료. / (오른쪽) 이 자료에 따르면 응답자들은 주제에 대한 정보가 없는 가운데서도 찬반 입장을 밝히는 경향을 보인다.
정부가 발주하는 통계조사는 예산이 투입되기에 상대적으로 비용으로부터 자유롭다. 그래서 정확한 연구가 가능하다. 그런 자료를 충분히 활용하고자 하는 건 연구자들의 자연스러운 욕구이기도 하다. 그럼에도 국가 데이터를 원자료 형태로 받는 데 한계를 느낀다고 연구자들은 호소한다.

심지어는 권력의 정점에 있는 청와대의 요구도 잘 통하지 않는다는 증언이 나온다. 청와대 행정관을 지낸 김장수 박사도 “공공기관은 청와대에 제출하는 자료도 시일을 마냥 늦추거나 호환이 안 되는 데이터 양식으로 보내 애를 먹이는 일이 잦았다”고 말했다. 원자료 제출을 요구하면 보고 절차를 거쳐야 한다며 시간을 끌기도 하고, 보내온 자료도 검증이 불가능한 한글 파일 형태일 때가 많다고 했다. 아예 제출하지 않고 막무가내로 버티는 경우도 있어 줄다리기하다 끝나는 경우도 없지 않다는 것이다. 김 박사는 “국가가 혁신적으로 발전하려면 국가에 대한 데이터를 체계적으로 모아 원자료 형태로 누구나 활용하는 환경을 만들어야 한다”고 말했다.

이런 식으로 공공기관이 주도적으로 원자료를 공개하면 전국에 산재한 연구자가 달려들어 새로운 정보와 정책 아이디어 꽃을 피울 수 있다. 데이터를 활용한 연구조사가 활성화된다는 것이다. 이현우 교수는 “기본적으로 공공기관이 국가 예산을 들여 실시한 여론조사를 공개할 때는 홈페이지에 통계자료로 사용할 수 있는 원자료를 다 올리는 게 바람직하다”면서 “정부가 이런 쪽으로 방향을 잡으면 국내 다른 기관들도 따라가게 될 것”이라고 말했다.

박근혜 정부도 공공 데이터 개방에 공을 들인다. 대표적인 게 공공정보 개방을 통해 일자리 창출과 창조경제를 지원하는 이른바 ‘정부 3.0’제도다. ‘공공데이터의 제공 및 이용 활성화에 관한 법률’에 따라 정부와 공공기관은 생성 또는 취득한 데이터베이스, 전자 파일 등 공공데이터를 민간에 제공하게 된다. 공공기관의 대이터베이스(DB)와 전자 파일을 활용하고자 하는 국민은 우선 공공데이터 포털(www. data.go.kr)을 찾아 원하는 공공 데이터의 제공을 요청하면 된다.

‘정부 3.0’은 정부의 각 기관이 자료를 풀라는 슬로건이다. 하지만 정부 기관들이 원자료는 풀지 않고 일부 자료만 제시하는 시늉한다고 박원호 서울대 교수가 비판했다. 박 교수에 따르면 정부 기관들이 국가 예산을 들여 만든 데이터를 자기네 자산으로 여기는 경향이 있다는 것이다. 데이터를 어떤 방식으로 활용하면 부가가치를 창출하는가에 대한 개념이 희박한 관료들도 적지 않다고 한다. 공공기관이 원자료를 올리는 경우도 드물고 올린 자료를 찾는 일도 쉽지 않다. 다시 말해 해당 기관 웹사이트에만 자료를 올리거나 정부기관 간 협조가 안 되는 일이 다반사라는 것이다. 박 교수는 “데이터는 뭉쳐지고 연결되고 가공되면서 엄청난 가치를 만들어내는데 현재 우리 정부는 데이터 개방이라고 해서 웹사이트에 올리는 수준에서 맴돌고 있다”고 아쉬워했다.

이를테면 중앙선관위가 올리는 자료에다 통계청의 인구센서스 자료, 국토부의 지역별 땅값 등락 자료를 연결해서 분석하는 틀이 제공된다면 민심 동향을 보다 입체적으로 분석해볼 수 있다는 것이다. 선관위가 주요 공공기관, 일반 연구자들과 연구 생태계를 만드는 일에도 적극적으로 나서야 한다는 주문이다. “정부의 자료를 잘 활용하면 국민 삶의 질 자체가 달라진다”고 박 교수는 강조한다.

‘정부 3.0’ 시책에 따라 운용되는 공공 데이터 포털(www. data.go.kr)도 엉성하기는 마찬가지다.

5월 중순 초기화면에 뜬 인기 파일 데이터 1순위에 오른 교통사고통계를 봤다. 도로교통공단이 원자료를 올려 활용성을 높였으나 가장 최근 올린 자료가 2013년 분으로 2014년 이후 자료는 거의 찾아 보기 어렵다. 또 포털 검색창에 ‘설문’이라는 키워드로 뜨는 12건의 데이터 중 원자료를 첨부한 경우는 5건에 그치기도 했다. 공공 데이터 포털에 자료를 올리거나 링크를 거는 공공기관이 보다 세심한 배려와 정성을 쏟아야 한다는 지적이 나오는 배경이다.

원자료 공개에 인색하기는 중앙선관위 마찬가지


▎지난해 실시된 2015 인구주택총조사에서 홍보대사인 배우 김상중(맨 오른쪽) 씨가 서울의 한 가정을 방문했다.
선거의 공정한 관리를 책임지는 중앙선관위도 원자료를 충실히 제공한다고 보기 어렵다. 중앙선관위 홈페이지에 보면 20대 총선 관련 ‘당선인 각종 통계’란이 있다. 여기에는 정당별, 직업별, 학력별, 성·연령별 데이터가 올라와 있지만 대부분 원자료가 아닌 가공한 자료를 주종을 이룬다. 선거 관련 연구자들이 여러 가지 변수를 집어넣어 데이터를 활용하기란 애당초 불가능한 조건이다. 김석호 서울대 교수는 “중앙선관위도 선거 관련 데이터의 원자료를 공개해야 한다”고 말했다.

한국은 외국에 비해 공공기관 데이터 활용이 중요한 여건에 있다고 하겠다. 그 이유는 다음과 같은 통계가 잘 말해준다.

유럽마케팅여론조사협회(ESOMAR)의 연차보고서인 ‘글로벌 마켓 리서치 2015’에 따르면 한국 여론조사 시장에서 공공부문이 차지하는 비율이 30%에 이른다. 나머지 70%는 기업을 포함하는 민간부문이다. 한국의 공공부문 비율은 ESOMAR 조사에 포함된 49개국 중 가장 높았다. 49개국의 공공부문 비율 평균은 8%에 그쳤으며 한국의 뒤를 잇는 뉴질랜드(24%), 파키스탄(20%), 스위스(17%)에 견줘서도 한국의 공공부문 비율이 월등히 높다.

이는 개별 국가의 여론조사 시장에서 차지하는 상대적인 비율을 나타낸 것으로 절대 시장 규모를 뜻하는 건 아니다. 하지만 한국과 같이 공공부문이 상대적으로 차지하는 비중이 큰 국가일수록 정부사이드에서 생산되는 데이터가 많다는 뜻도 된다. 한국의 경우 참여정부 시절 정책결정 과정에 여론조사 결과를 참조하도록 법제화한 경우도 있다. 김춘석 한국리서치 이사는 “공공부문이 상대적으로 크다는 건 공공분야 의사결정 과정에 여론조사가 그만큼 많이 활용된다는 의미”라고 풀이했다. 공공부문이 작성하는 데이터가 충분히 공개되고 활용도가 높을수록 공익성도 증가하게 마련이다. 더 체계적으로 관리하고 공개해서 연구자들이 마음껏 이용케 하는 조치가 필요하다고 김대훈 한국사회과학자료원 자료개발실장이 말했다.

민간과 공공기관 할 것 없이 아직도 국내 많은 연구자는 같은 주제로 소규모 연구를 제각각 진행하고서는 자료는 공개하지 않는 경향이 존재한다. 이래서는 질이 떨어지는 자료들이 난립할 뿐이다. 차라리 그 돈을 모아 질 좋은 큰 자료를 만드는 쪽으로 자료공유 활동을 강화하자고 김석호 서울대 교수는 제안한다. “질 좋은 자료는 일반 상식선의 예상대로 결론이 나오기에 안정적이다. 또 자료를 공개하면 원칙 준수 여부를 다른 연구자들이 감시하게 된다. 자료를 공개한다는 생각으로 만드는 자료와 나 혼자 쓰고 만다는 생각으로 만드는 자료의 질은 천양지차다.”

- 자료 정리·문상덕 인턴기자

- 박성현 기자 park.sunghyun@joongang.co.kr

201606호 (2016.05.17)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음