정치.사회.북한.국제

Home>월간중앙>정치.사회.북한.국제

[스페셜 리포트] 월간중앙·건양대 빅데이터랩 공동기획-빅데이터로 분석한 대한민국 시대정신 ‘공정’ 

대선 후 공정-이대남·여성…연관성 순위 급격히 올랐다 

최현목 월간중앙 기자
AI 활용해 포털 언급량 추이, 단어 간 관계 정밀분석
검찰·정치 분야에서 ‘내로남불’과 연관성 높게 나와


▎3월 7일 경기 안산시 안산문화광장에서 열린 윤석열 국민의힘 대선후보 유세에서 한 지지자가 ‘공정· 상식· 정의·법치’가 적힌 우산을 들어 보인다. / 사진:국회사진기자단
"군주는 자신에게 닥친 ‘포르투나(fortuna, 운명)’를 ‘비르투(virtu, 자신의 역량)’로 극복하면서 ‘네체시타(necessita, 시대정신)’를 항시 염두에 두고 책무를 수행해야 한다.” ‘근대 현실주의 정치학의 아버지’인 니콜로 마키아벨리(1469~1527)는 자신의 저서 [군주론]에서 리더의 3대 요소 가운데 하나로 시대정신을 들었다. 그로부터 500년이 흘렀는데도, 시대정신을 읽는 능력은 여전히 현대 정치 지도자가 갖춰야 할 필수 덕목으로 손꼽힌다.

대한민국은 3월 9일 새로운 정치 지도자를 뽑았다. 앞으로 5년 동안 대한민국호(號)의 키를 잡는 윤석열 대통령 당선인은 대선 기간 내내 ‘공정’과 ‘상식’을 시대정신으로 강조해왔다. ‘공정과 상식으로 만드는 새로운 대한민국’을 슬로건으로 내건 윤 당선인은 당선 후 첫 기자회견에서 대선 결과에 대해 “공정과 상식을 바로 세우라는 개혁의 목소리이고, 국민을 편 가르지 말고 통합의 정치를 하라는 국민의 간절한 호소이며, 새로운 희망의 나라를 만들라는 준엄한 명령”이라고 밝혔다.

언급량 尹 〉 李, 2016년 미국 대선과 유사


▎건양대 의료인공지능학과 빅데이터랩이 분석에 따르면 내로남불은 검찰·정치·사법 등 분야와 포털에서 자주 언급되는 것으로 조사됐다. / 사진:건양대 의료인공지능학과
월간중앙은 건양대 의료인공지능학과 빅데이터랩(Big Data LAB)과 손잡고 ‘2022 공정 대한민국의 현주소’를 주제로 빅데이터 분석에 나섰다. 빅데이터랩은 공정·상식같이 시대정신으로 꼽히는 단어들의 포털 언급량 변화 추이, 그리고 이 단어들과 다른 단어의 연관성 등을 조사했다.

이를 위해 빅데이터랩은 의료 영상을 분석하는 데 쓰이는 인공지능 기반의 데이터 분석 기법을 활용해 알고리즘을 구축했다. 포털 사이트 ‘다음’에 노출되는 기사를 분석 대상으로 했으며 1월 1일부터 3월 3일까지 1차 조사, 그리고 3월 9일 20대 대선일 전후 16일간 2차 조사를 했다.

빅데이터랩은 빅데이터 조사 방식으로 워드 임베딩(word embedding) 기법을 활용했다. 워드 임베딩은 인공지능이 대량의 텍스트 데이터를 학습해 각 단어의 특징을 여러 숫자들의 조합으로 나타내는 기술이다. 이를 통해 ‘1’과 ‘-1’ 사이의 결과값을 얻어 단어들 간의 연관성을 분석할 수 있다. 과정은 ‘크롤링(Crawling)’을 통한 데이터 수집→데이터 전처리(불용어 정의, 형태소 분석)→특징 추출(문서·문장·단어 등에 대한 특징값 추출)→모델링 순으로 진행했다.

월간중앙이 시대정신을 읽는 데 빅데이터 분석을 선택한 이유는 여론조사 등으로는 잡아내기 힘든 여론의 추이를 확인하기 위해서다. 이에 월간중앙은 빅데이터랩의 자료와 별개로 트위터·인스타그램·블로그·온라인 커뮤니티 등 소셜 빅데이터 326억 건을 기반으로 한 분석 플랫폼 썸트렌드(Sometrend)를 사용해 사회관계망(SNS) 속 민심을 읽고자 노력했다.

빅데이터랩은 1차 조사를 위해 총 5만400개 기사 데이터를 수집, 그중 올해 1월 1일부터 3월 3일까지의 기사 4만7393개를 추렸다. 형태소로 나눈 후에는 246만3644개 단어를 얻었으며, 이것을 직접적인 분석 대상으로 삼았다.

이 기간 사용 빈도가 높았던 상위 10위 단어는 대선(1만3658건)·국민(11차 수정 리핑 만1604건)·윤석열(1만1069건)·이재명(8992)·한국(7380)·뉴스(6745)·대통령(6143)·정부(5906)·러시아(5796)·안철수(5510) 순으로 나타났다. 시대정신으로 꼽히는 공정(2409건)·정의(1545건)·상식(1389건) 같은 단어는 각각 32·53·56위로 조사됐다.

각 정당 대선후보 가운데 윤 당선인의 이름이 가장 많이 기사에 노출됐으며, 이는 이재명 더불어민주당 상임고문보다 2000여 건(약 20%) 더 많은 수치다. 이러한 빅데이터랩 조사 결과는 2016년 미국 대선에서 도널드 트럼프의 당선을 예측했던 당시 구글 트렌드(Google Trends) 결과를 연상케 한다. 당시 여론조사가 힐러리 클린턴의 당선을 점쳤던 반면, 구글 트렌드는 트럼프의 당선을 예측해 주목받았다. 구글 검색 키워드 추세를 지수화한 구글 트렌드처럼 빅데이터랩 조사 결과 역시 긍·부정을 나누지 않고 해당 단어에 대한 대중적 관심도를 보여준다.

정치 분야가 공정·상식과 함께 포털에 가장 많이 노출


▎건양대 의료인공지능학과 빅데이터랩이 대선 전후 16일 동안 포털 사이트에서의 단어 언급 빈도를 분석해 이미지화했다. 대선 전(좌)에는 대선·국민, 대선 후(우)에는 대통령·윤석열의 언급 빈도가 가장 높았던 것으로 나타났다. / 사진:건양대 의료인공지능학과
빅데이터랩은 공정·상식을 기준으로 다른 단어와의 연관성을 분석했다. 빅데이터랩 알고리즘을 개발한 조환호 건양대 의료인공지능학과 교수는 “연관성 측정의 결과는 ‘1’이 최곳값으로 1에 가까울수록 두 단어가 같이 사용되는 일이 잦았다는 뜻”이라며“반대로 마이너스 값이 나오면 두 단어가 함께 쓰인 적이 거의 없음을 의미한다”고 설명했다.

이 결과 공정을 기준으로 상식(0.72)이 가장 연관성이 높았으며, 뒤이어 정치(0.67)·문화(0.64)·사회(0.64)·대한민국(0.63) 순으로 나타났다. 상식을 기준으로는 정의(0.88)·정치(0.82)·공정(0.72)·국민(0.64)·대한민국(0.54) 순으로 연관성이 높게 나왔다.

정치·경제·사회·문화 등으로 구분해보면 정치 분야가 공정·상식과 함께 포털에 가장 많이 노출됐다. 이러한 결과가 우리에게 시사하는 바는 무엇일까. 신율 명지대 정치외교학과 교수는 지난 3월 월간중앙 통화에서 “한국 사회의 정치적 과정이 공정과 상식에서 가장 벗어나 있다는 의미”라며 “그뿐만 아니라 정치에 의해서 공정과 상식이 상당히 부정됐다는 느낌을 국민이 받고 있다는 것”이라고 분석했다.

이종훈 시사평론가 역시 “국민이 정치 기사를 볼 때 공정이라는 단어를 떠올린다는 것을 의미한다”며 “이는 역설적이게도 공정과 상식이 가장 안 지켜지는 분야가 정치 분야이고, 공정과 상식에 어긋나는 행동을 가장 많이 하는 사람들이 정치인이라고 생각하기 때문”이라고 설명했다.

한국식 신조어인 ‘내로남불(내가 하면 로맨스 남이 하면 불륜)’은 지난 5년간 공정·상식과 반대어 개념으로 우리 사회 전반에서 사용됐다. 이뿐만 아니라 지난해 4·7 재·보궐 선거에서 더불어민주당이 패배하자 미국 [뉴욕타임스(NYT)]는 기사에 ‘내로남불(Naeronambul)’이라고 적시하며 “한국인들은 문재인 정권 진보 인사들의 위선적인 행동에 대한 냉소를 키워왔고, 이를 ‘내로남불’이라 불렀다”고 지적하기도 했다.

빅데이터랩 분석에 따르면 내로남불은 검찰(0.71)·정치(0.59)·분노(0.59)·사법(0.56)·국민(0.55)·적폐(0.55)·갑질(0.54) 순으로 연관성이 높게 나왔다. 특정 분야 가운데 검찰·정치·사법이 내로남불과 함께 자주 언급됐다는 뜻이다. 이런 결과가 나온 이유는 크게 두 가지 측면으로 분석된다. 첫째는 정치인들이 검찰의 적폐 수사와 관련해 내로남불이라는 단어를 자주 언급했다는 것, 둘째는 검찰·정치 분야에서 나오는 내로남불 행위가 국민의 분노를 사고 있다는 것이다.

신율 교수는 “국민이 문재인 정권의 내로남불 행태에 분노한 이유는 이중 잣대로 법치를 문란하게 만들었다는 느낌을 받았기 때문”이라며 “정권이 법을 자의적으로 해석하는 모습에 국민이 문제의식을 갖게 됐다고 볼 수 있다”고 말했다.

최진 대통령리더십연구원장 역시 “문재인 대통령은 취임사에서 ‘기회는 평등하고, 과정은 공정하며, 결과는 정의로울 것’이라고 말했지만, 실제 정치 행위는 공정과 거리가 멀었다”며 “여야 힘겨루기 과정에서, 또는 정권과 검찰 간의 갈등에서 시작한 내로남불 공방이 결국 국민에게까지 확산한 것”이라고 해석했다.

대선 직후 남북관계 정립 문제에 국민 관심 높아져


▎소셜 빅데이터 기반 분석 플랫폼 썸트렌드를 활용해 1월 1일부터 4월 13일까지 공정을 기준으로 연관어를 조사한 결과 윤석열이 1위로 나왔다. / 사진:썸트렌드 캡처
월간중앙과 빅데이터랩은 대선 전후 단어 간 연관성 변화를 알아보기 위해 3월 9일을 기준으로 전후 16일을 같은 알고리즘을 사용해 분석해봤다. 대선 이전(2월 21일~3월 8일)에 포털에 노출된 119만8266개 단어, 대선 이후(3월 9일~24일)의 109만8920개 단어를 분석 대상으로 삼았다.

대선 이전 사용 빈도 1위는 대선(1만3106), 대선 이후 사용 빈도 1위는 대통령(7468)이 차지했다. 이 결과 현실 세계에서의 굵직한 이벤트가 온라인 데이터상에도 상당히 반영된다는 점을 확인할 수 있었다.

‘공정’을 기준으로 봤을 때, 이대남·차별·여성과의 연관성 순위가 급격히 높아진 것으로 나타났다(이대남 38위→10위, 차별 41위→3위, 여성 35위→5위). 또 공정을 기준으로 대한민국과의 연관성 순위는 11위 하락(5위→16위)했지만, 내로남불의 순위는 16위 상승(30위→14위)했다. ‘공정’을 중시하고 ‘차별’에 적극적으로 대응하는 MZ세대(1980년대 초~2000년대 초 출생)의 표심이 이번 대선 결과에 적지 않은 영향을 끼쳤다고 해석될 수 있다. 이를 뒷받침하듯 내로남불을 기준으로 한 연관성 조사에서도 이대남·여성의 순위가 큰 폭으로 올랐다(이대남 28위→3위, 여성 50위→26위).

특히 내로남불과 가장 연관성이 높은 단어인 ‘정치’가 대선 후에도 여전히 1위를 차지한 것으로 조사됐다. 빅데이터랩이 추출해 분석한 단어 가운데 대선 전후 연관성 조사 1위가 변하지 않은 경우는 내로남불이 유일했다. 이는 대선이 끝난 후에도 정치권에서 내로남불 공방을 멈추지 않고 있기 때문으로 보인다.

‘윤석열’을 기준으로 봤을 때는 ‘북한’이 높은 순위 변화를 보였다(37위→23위). 이는 새 정부가 남북 관계를 어떻게 정립해나갈 것인지에 대한 대중적 관심이 대선 전에 비해 높아졌음을 보여준다. 또 상식의 순위가 13위→3위로 오른 것으로 확인됐다. 윤 당선인과 대통령직인수위원회가 상식을 국정운영의 핵심 키워드 가운데 하나로 선택했다고 해석할 수 있다. 이는 ‘상식’을 기준으로 ‘대통령’과의 연관성이 16순위(23위→7위) 오른 것에서도 확인된다.

3월 10일 ‘공정’ 언급량 전년 대비 132.75% 증가


▎소셜 빅데이터 기반 분석 플랫폼 썸트렌드 분석 결과 1월 1일부터 4월 13일까지 공정과 함께 ‘무너지다’라는 표현을 가장 많이 사용한 것으로 나타났다. / 사진:썸트렌드 캡처
이종훈 평론가는 “윤 당선인이 3·9 대선에서 승리할 수 있었던 이유 중의 하나는 국민이 윤 당선인을 공정과 상식의 상징으로 생각했기 때문”이라며 “그러한 국민의 열망을 알고 있는 윤 당선인은 앞으로도 공정·상식을 강조할 수밖에 없을 것”이라고 내다봤다.

공정과 윤 당선인의 높은 연관성은 SNS에서도 확인된다. 월간중앙은 소셜 빅데이터를 기반으로 한 분석 플랫폼 썸트렌드(Sometrend)를 활용해 1월 1일부터 4월 13일까지 공정을 기준으로 연관어를 조사했다. 그 결과 윤석열(10만619건)이 2위인 정의(6만2026건)와 큰 차이로 1위를 차지했다(3위 상식 5만5466건). 월별 연관어 순위 변화에서도 윤석열은 공정과 관련해 4개월 연속 SNS에서 가장 많이 언급된 것으로 나타났다.

공정과 관련한 긍·부정어 분석은 국민이 공정이라는 단어를 통해 우리 사회를 어떻게 바라보고 있는지 간접적으로 보여준다. 그 결과 올해 국민은 공정과 함께 ‘무너지다’라는 표현을 가장 많이 한 것으로 드러났다(1만71건). 범죄(9255건)·불공정(8572건)·찬양하다(7383건)·틀리다(5612건) 등이 ‘무너지다’의 뒤를 이었다. 공정과 관련한 긍·부정어 5위 안에 긍정어는 ‘찬양하다’가 유일하다.

한편 올해 공정이 SNS에서 가장 많이 언급된 시점은 3월 10일로 나타났다(1만3290건). 이는 지난해 3월 10일 대비 132.75% 증가한 수치다. 3·9 대선의 승자가 결정된 날, 우리 국민이 온라인 공간에서 ‘공정 대한민국’을 외쳤다고 봐도 무방한 수준의 증가 폭이다.

이번 빅데이터랩 조사를 설계·주도한 김웅식 건양대 의료인공지능학과장은 월간중앙에 “우리 사회가 얼마나 공정에 목말라 있는지 빅데이터를 통해 확인할 수 있는 시간이었다”며 “건양대 빅데이터랩이 연구한 결과가 사회 현상을 분석하고 더 나아가 인공지능을 활용해 좀 더 공정한 사회를 만드는 데 이바지할 수 있도록 노력하겠다”고 말했다.

- 최현목 월간중앙 기자 choi.hyunmok@joongang.co.kr

202205호 (2022.04.17)
목차보기
  • 금주의 베스트 기사
이전 1 / 2 다음